Яндекс для всех - Абрамзон М. Г.
Шрифт:
Интервал:
Закладка:
Прежде всего, стало очевидно, что поиск в вебе не может быть сколько-нибудь корректно выполнен, будучи основан на анализе (пусть даже сколь угодно глубоком, семантическом и т. п.) одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют не меньшую, а порой и большую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов — все эти факторы невозможно сбрасывать со счета.
Появились эти критерии не на пустом месте. Для научных трудов вопрос значимости был давно решен за счет применения индекса цитирования (ИЦ). Индекс цитирования для научного труда определяется как количество ссылок на этот труд в других изданиях (иногда вместо ссылок на конкретный труд считают упоминания фамилии автора). Этот принцип определения значимости был перенесен и на веб-страницы, для которых ИЦ подсчитывается по количеству ссылок на нее с других веб-ресурсов. Для веб-сайта индекс цитирования определяется по ИЦ его страниц. Главная особенность такого ранжирования заключается в том, что значимость сайта определяется не его владельцем, а тем, как его оценивают другие — чем больше ссылок ведет на сайт, тем ценнее размещенная на нем информация.
Однако индекс цитирования в том виде, как он здесь описан, не дает корректной оценки значимости. Хотя бы потому, что зачастую одна ссылка с известного и уважаемого сайта может значить намного больше, чем сотня ссылок с никому не известных страниц. Поэтому был предложен более сложный вариант индекса цитирования — взвешенный (вИЦ). При его подсчете для каждой ссылки вычисляется вес в зависимости от того, на каком сайте она размещена. Чем авторитетнее сайт, тем выше вес ссылки, на нем размещенной. При подсчете взвешенного индекса цитирования почти все поисковые системы исключают из подсчета ссылки, размещенные на сайтах с бесплатного хостинга, на немодерируемых форумах, ряде иных ресурсов. Также не берутся в расчет внутренние ссылки (переходы со страницы на страницу в рамках одного сайта).
9.2. PageRank
Наиболее ярким примером такого индекса цитирования служит PageRank. Как описывает теорию индекса Google — "если Страница А ссылается на Страницу В, то Страница А считает, что Страница В — важная страница". Текст ссылки не используется при расчете этого индекса. Зато наоборот, PageRank оказывает влияние на важность ссылок на страницу. Если на страницу указывают многие важные ссылки, то ее ссылки на другие страницы также становятся более важными. Для PageRank важными ссылками считаются ссылки, ведущие на сайт из каталогов DMOZ и Yahoo!.
Базовая формула для расчета значения PageRank чаще всего в соответствующих статьях бывает представлена в следующем виде:
где:
PRa — PageRank рассматриваемой страницы;
d — коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не попадет на следующий документ каким-нибудь другим образом);
N — общее количество документов;
PRi — PageRank i-й страницы, ссылающейся на рассматриваемую страницу;
Ci — общее число ссылок на i-й странице.
Значение PR находится в пределах от 0 до 10 и представлено целыми числами. Именно это значение можно увидеть в установленной панели инструментов, хотя действительное значение PR совсем иное. Для удобства и упрощения представления индекса цитирования реальные значения были приведены к значениям для пользователей. Точные данные о том, каким образом было выполнено это приведение, отсутствуют, но в качестве примера можно воспользоваться следующими данными (табл. 9.1).
Отсюда можно сделать один вывод — увеличить значение PR от 1 до 2 значительно проще, чем подняться со значения 4 до значения 5. Средние по известности сайты, чаще всего, имеют значение PR, равное 4 или 5. Значение 6 имеют хорошо "раскрученные" сайты. 7 или 8 — у ведущих брендов.
Приведенная здесь формула не говорит о том, что расчеты выполняются строго в соответствии с ней. На самом деле происходит постоянное усложнение алгоритма расчета, примером чему может служить осуществленное в ноябре 2003 года специалистами Google изменение алгоритма вычисления PageRank. Это изменение среди англоговорящих вебмастеров получило название "Florida". Однако Google не сделал никаких официальных заявлений по поводу того, что за изменения были внесены. На этом работа над изменениями не остановилась, в компании постоянно ведутся научные работы по модификации алгоритма PageRank.
О том, как рассчитывается показатель PageRank, написано много. Статьи на эту тему легко найти в Интернете (см., например: Chris Ridings, "Растолкованный PageRank", http://www.searchenginesystems.net). А можно "вживую" попробовать рассчитать значение этого показателя при различных вариантах расстановки ссылок между сайтами с использованием онлайнового калькулятора. Он находится на сайте http://www.webworkshop.net/, и на нем реализовано вычисление по классической версии алгоритма (рис. 9.1). С помощью этого сервиса можно наглядно разобраться в том, как распределяется вероятность посещения пользователем документа (PageRank) при различных схемах расстановки ссылок между документами.
9.3. Тематический индекс цитирования
На Яндексе показатель, аналогичный PageRank, был введен в обращение в 2001 году и получил название взвешенный индекс цитирования — вИЦ. Он рассчитывался на основе классического алгоритма PageRank с точностью, как отмечали сами разработчики, "до деталей реализации". Хотя, безусловно, доскональной точности расчета показателей быть не могло — ни одна поисковая система не раскрывает всех нюансов своих расчетов. В дальнейшем в расчет вИЦ были включены дополнительные факторы, отсутствующие в классическом алгоритме определения ссылочного ранга страницы. Но продержался вИЦ в качестве главного показателя, доступного для посетителей, недолго. Через полтора года его сменил новый индекс, тематический (тИЦ).
Это еще одна разновидность индекса цитирования. Отличается от взвешенного тем, что вес ссылок, учитываемых при подсчете показателя, зависит не только от значимости ссылающегося сайта, но также от его тематики. Чем ближе тематика ссылающегося сайта к рассматриваемому, тем больший вес может быть придан ссылке, ведущей с него. Тематика сайтов определяется по каталогам веб-проектов. Чаще всего поисковая система использует собственный или сотрудничающий с ней каталог, а качество ссылок из таких каталогов на сайт учитывается как ссылки авторитетных сайтов.
Тематический индекс цитирования (рис. 9.2) определяет значимость вебресурсов с учетом качественных характеристик ссылок на них с других сайтов. Эта значимость рассчитывается по специальному алгоритму, в котором существенную роль играет тематическая близость ресурса и ссылающихся сайтов. Значение тИЦ определяется в первую очередь не количеством ссылок, а суммой их собственных качественных характеристик ("весов").
Значение тИЦ не является постоянным. Оно пересчитывается еженедельно. Рассчитывается тИЦ либо для всего ресурса, либо для его разделов, если они зарегистрированы в каталоге Яндекса как самостоятельные ресурсы. При расчете тИЦ учитываются только внешние ссылки, поэтому сколько бы ни было проставлено перекрестных ссылок между страницами одного сайта, они никакого влияния на значение тИЦ не окажут. При расчете тИЦ одного из разделов сайта, ссылки на раздел сайта из других разделов этого сайта будут считаться внутренними и, следовательно, не будут увеличивать его тИЦ.