Индексирование содержимого

Опубликовал: Friday, August 19, 2024 в категории Поисковые системы | Пока нет комментариев

Изучив найденные по обследованным URL-адресам страницы с информацией, поисковая система Google создает индекс визуально доступного контента, найденного в HTML-коде. Мы наслышаны об индексе цитирования веб-сайтов Google, но что конкретно представляет собой данный индекс? Это просто список понятий, похожий на предметный указатель книги, который помогает пользователям найти информацию, соответствующую интересующей их теме. Благодаря индексу цитирования во время обработки поискового запроса Google не приходится проверять каждый URL-адрес с контентом из своего хранилища и проверять его на наличие искомых слов. Вместо этого она проверяет набор слов по индексу. К каждому слову в индексе прикреплен список URL-адресов ресурсов, содержащих данное слово. Поскольку в любом языке меньше слов, чем URL-адресов в Интернете, этот процесс занимает гораздо меньше времени. Таким образом, индекс необходим для того, чтобы Google могла найти тот или иной URL-адрес и отправить на него пользователей, когда она решает, что контент соответствующего ресурса может оказаться полезным.

Процесс индексации, говоря простыми словами, представляет собой приписывание каждому URL-адресу уникального идентификационного номера, который затем будет проставлен напротив каждого слова, находящегося на данной странице. Поскольку поисковая система Google индексирует URL-адреса последовательно, подавляющее большинство слов встречается ей неоднократно, поэтому в течение данного процесса уникальный номер URL-адреса просто прикрепляется к списку найденных на нем слов наряду со всеми остальными URL-адресами, где присутствуют аналогичные слова. Так получается простой индекс: сначала находится слово, а затем просматривается список URL-адресов, на которых оно присутствует.

Поскольку поисковая система Google принимает решение о «полезности» огромного количества страниц, процесс индексации должен быть очень чувствительным к различиям между страницами, чтобы достичь максимально возможной точности в сопоставлении поисковых запросов и релевантных им страниц. Поисковая система, принцип работы которой был бы настолько же прост, как в описанном выше примере со списком слов, стала бы бесполезной через несколько сотен накопленных веб-страниц, не говоря уже о нескольких сотнях миллионов. Поэтому для достижения высокой степени точности результатов поиска необходим процесс индексации, учитывающий гораздо больше факторов для каждой страницы с информацией, чем просто наличие или отсутствие искомого слова. Вспомните, что в этом заключалось одно из отличительных свойств поисковой системы Google, когда она только появилась. При сопоставлении того или иного URL-адреса с определенным поисковым запросом система оценивает множество факторов, и их число увеличивается по мере того, как Google индексирует все большее и большее количество информации с большего числа ресурсов. Эти факторы будут подробнее рассмотрены в последующих главах, но некоторые из них необходимо разобрать уже сейчас.

Когда поисковая система Google индексирует контент страницы, она не только сохраняет информацию о URL-адресе рядом с отдельными присутствующими там словами, но и сохраняет эту информацию рядом со списком найденных там фраз - сочетаний из двух, трех, четырех, пяти и т. д. слов или других цепочек символов, например номером модели телевизора. Этот номер модели может входить во фразу, включающую название фирмы и другие символы, обозначающие тип телевизора, например «LCD TV». Фраза может состоять из пяти цепочек символов, разделенных пробелами, например «Panasonic 37». В индексе поисковой системы Google окажется список из таких «пятисловных» фраз, напротив которых будет находиться список URL-адресов всех сайтов продаж, производителей и обзоров, среди контента которых присутствует соответствующая фраза.

Google решает, какие фразы из практически бесконечного количества возможных вариантов в английском языке (не говоря уже о других языках мира и наборах символов, фактически не являющихся словами) вносить в индекс, а какие оставить без внимания. Это решение принимается на основе частоты появления тех или иных фраз в информации, найденной поисковой системой в Интернете, а также в большом списке поисковых запросов, которые пользователи вводят в поисковой строке Google. Эти параметры образуют все еще бесконечно большое - но явно поддающееся обработке - количество потенциальных фраз, позволяя сократить их количество и существенно помогая Google проводить индексацию.

Примеры типов факторов, которые поисковая система Google учитывает в процессе индексации (в частности, при оценке релевантности страницы по отношению к слову или фразе и наоборот), включают:

• Наличие. Присутствует ли на данной странице искомое слово?

• Ссылка. Присутствует ли это слово на каком-либо связанном с этой страницей ресурсе?

• Где в источнике ссылки появляется это слово?

• Насколько источник ссылки релевантен данному слову?

• Насколько авторитетным является источник ссылки?

• Расположение. Где в тексте находится это слово? Ближе к началу? Ближе к концу? В заголовках, подзаголовках, названиях, абзацах?

• Взаимоотношение. Относятся ли эти слова к главной теме страницы? Есть ли на данной странице другие слова, имеющие отношение к рассматриваемой теме? Например:

• синонимы (слова с аналогичным значением). «Фолиант» - это синоним слова «книга»;

• гиперонимы (слова, означающие более общие понятия). «Издание» - это гипероним слова «книга»;

• гипонимы (слова, означающие более узкое понятие). «Брошюра», «роман», «Библия» - это гипонимы слова «книга»;

• меронимы (слова, означающие части данного понятия). «Страница», «переплет», «обложка» - это меронимы слова «книга»;

• холонимы (слова, означающие целое над данным понятием). «Библиотека» - это холоним слова «книга».

Поисковую систему Google особенно интересуют понятия с братскими взаимоотношениями (другими словами, с общим гиперонимом). Например, Google знает, что Manchester United, Chelsea и Tottenham Hotspur - это названия английских футбольных клубов. Чтобы получить представление о том, насколько хорошо (или плохо) поисковая система может разбираться в этих предметных областях, побалуйтесь с приложениями Google Sets на странице labs.google.com/sets и Google Squared на странице www.google.com/squared:

• Соседство. Если нужно найти более одного слова, насколько близко друг к другу располагаются эти слова на странице?

• Совместное появление. Если нужно найти более одного слова, насколько часто эти слова появляются в сочетании с другими словами во всем наборе документов? Это необычные слова или общеупотребительные? А слова, с которыми они появляются?

Также существуют другие детали, которые поисковая система Google может уловить на самой странице:

• Насколько естественным языком написан текст? Соответствует ли его грамматическая структура нормам, которых придерживаются авторитетные веб-сайты? Или он выглядит как отвратительный спам-сайт, по которому разбросаны повторяющиеся ключевые слова?

• Является ли текст частью подборки других документов или страниц? Если да, релевантны ли они искомым словам? А связанным с ним словам?

• Сколько времени существует эта подборка?

• Как часто это подборка обновляется?

• На скольких ресурсах находятся ссылки на нее? Это хорошие, авторитетные ресурсы?

• Есть ли в данной подборке ссылки на ресурсы, которые релевантны искомым словам? Это хорошие, авторитетные ресурсы?

• Как быстро откликается эта подборка? Быстро ли она загружается при посещении?

Это не единственные факторы, которые может принимать во внимание поисковая система Google, но вы теперь получили некоторое представление о том, какую работу она проделывает, чтобы создать свой индекс мировой информации. Как мы уже упоминали, количество факторов, учитываемых Google для оценки Релевантности контента по отношению к конкретным словам, исчисляется сотнями, поэтому в данном разделе представлена только очень краткая вводная информация о них.


Похожие посты:

Комментировать

Your email address will not be published. Required fields are marked *