Как поисковая система google справляется с дублированием

Опубликовал: Среда, Сентябрь 14, 2011 в категории Поисковые системы | Пока нет комментариев

В арсенале поисковой системы Google имеется три способа решения проблемы дублирования:

1. Google рассказывает владельцам веб-сайтов о том, из-за чего возникают ситуации дублирования, и дает советы, как можно их избежать (подробнее о «ловком обращении с дублирующим контентом» см. на сайте googlewebmastercentral.blogspot. com/2006/12/deftly-dealing-with-duplicate-content.html, а также в нашей книге, чтение которой, по нашему мнению, окажется для вас весьма полезным).

2. Google автоматически пытается аккумулировать Репутацию, которую обнаруживает на всех дублирующих URL-адресах, и направляет ее на наиболее значимую цель.

3. Поисковая система предоставляет владельцам сайтов возможность выбора, какой URL-адрес следует рассматривать приоритетным в случае возможного дублирования.

Также поисковая система Google помогает определить, на какой URL-адрес целесообразнее направить поток Репутации. Это позволяет владельцам сайтов, которым не удается адаптировать работу своих сайтов для поисковой системы, дополнять представленную в метаданных информацию «каноническим» тегом. Любая вещь в своем каноническом выражении упрощается до простейшей, наиболее значимой формы; следовательно, URL-адрес, на котором вы захотите сфокусировать всю Репутацию, и будет считаться каноническим. Боб решил последовать совету поисковой системы Google и выбрал «www.bobspetfish.co.uk/ goldfish/goldfish-care/» в качестве канонического URL-адреса своей выдающейся статьи.

Использование данного тега приведет к тому, что при любом посещении адресов, дублирующих сайт Боба, поисковая система Google будет понимать, какой из них нацелен на аккумулирование Репутации. Использование этого тега, разработанного для расширения информации о том, какие ссылки предпочитают пользователи, чтобы перейти к желаемому контенту (в нашем случае - к статье Боба), упрощает работу поисковой системы и помогает ей принимать оптимальные решения. Мы рекомендовали бы и вам задействовать этот для работы со своим сайтом, особенно когда вы не в состоянии предотвратить возникновение дублирований.

До того как компания Google разработала канонический тег, в борьбе с дублированием использовались все возможные средства. Автор одной из статей, посвященных работе с дублирующим содержанием, заметил:

Как мы помогаем пользователям и веб-мастерам (англ. «Webmaster» - «разработчик веб-страниц») справляться с дублирующим контентом.

Мы разработали алгоритм, который поможет остановить распространение дублирования, негативным образом сказывающегося на работе веб-мастеров и пользователей.

1. При обнаружении скопированного содержания (например, посредством определения изменений, вызванных URL-параметрами) мы группируем дублирующие URL-адреса в один кластер.

2. Мы выбираем самый «подходящий», по нашему мнению, URL-адрес, который будет представлять весь кластер в результатах поиска.

3. Затем мы объединяем все свойства кластерных URL-адресов (например, индекс цитируемости ссылки в поисковой системе) и приписываем их адресу, представляющему весь кластер.

Консолидация характеристик всех адресов в один представительный URL-адрес зачастую предоставляет пользователям возможность работы с более точными результатами поиска.

Советы поисковой системы Google относительно работы с дублирующим содержанием, безусловно, действенны, но не настолько эффективны, как изначальный отказ от дублирования.

Эта глава не случайно получила именно такое название, потому что, по нашему убеждению, наиболее действенный способ уменьшить риск появления дублирований - вообще не показывать дублирующий контент поисковой системе Google. Преимущество такого подхода заключается в том, что это легкодостижимо: от вас потребуется только выполнение определенных действий, которые помогут идентифицировать все возможные случаи дублирования, и соблюдение некоторых параметров настроек на веб-сервере, обслуживающем ваш сайт.

Сейчас самое время представить вам отличного помощника в организации потока Репутации и основного борца с дублированиями: постоянную переадресацию.

Постоянная переадресация, также известная как стандартный код состояния HTTP, 301 (англ. «Hypertext Transfer Protocol» - «протокол передачи гипертекста»), - это простой способ, с помощью которого запрос к определенному URL-адресу перенаправляется туда, где вы всегда сможете найти нужный контент. Посылать запрос к URL-адресу могут как пользователи, работающие со своими веб-браузерами, так и сама поисковая система Google, просматривающая содержание вашего сайта с помощью программы Googlebot.

Создание одного URL-адреса для управления многими

Постоянная переадресация, установленная на сервере Боба, будет перехватывать все ссылки к дублирующим версиям URL-адреса, где размещена статья о золотых рыбках, с присущими им грамматическими и орфографическими ошибками и странными цепочками цифр, и переадресовывать их на канонический URL-адрес - www.bobspetfish. co.uk/goldfish/goldfish-care/. Такое простое решение проблемы, скорее всего, не окажется действенным при работе с пользователями, которые уделяют больше внимания информации, а не сложностям URL-адреса, но многое прояснит для поисковой системы Google. Все пути ведут к единственному URL-адресу, присущему каждой странице информации. Следовательно, для поисковой системы Google существует только одно место, куда можно направить Репутацию всех дублирующих адресов, и при этом не учитываются ошибки, которые со временем могли появиться в ссылках. В таком случае любые попытки аккумулирования Репутации окажутся тщетными.

К сожалению, Боб узнал о возможностях постоянной переадресации намного позже того, как запустил в работу свой сайт. Также он был озабочен URL-адресами, которые поисковая система Google проиндексировала в роли дубликатов. Однако Бобу не стоило волноваться: при очередном посещении дублирующих сайтов Google обнаружила постоянную переадресацию, и с этого момента стала рассматривать все дублирующие адреса как устаревшие, а всю Репутацию, которую они приобрели за время своего существования в сети, перенаправила на канонический URL-адрес.

Использование инструментов переадресации помогло Бобу остановить и внутреннее дублирование - там, где он создал копии, разрешая URL-адресу отражать путь, по которому пользователи переходили к его статье, то есть через разделы «саге», «goldfish» или «articles». Ему это удалось посредством переходов к своей статье с URL-адресов внутри этих разделов, а не с помощью создания нового адреса. Таким образом, не важно, откуда «пришел» посетитель; при щелчке по ссылке на статью все пользователи перенаправлялись к канонической форме URL-адреса, которую выбрал Боб. Но он был все так же озабочен судьбой дубликатов страницы, которую Google уже проиндексировала на других URL-адресах, и Репутацией, которую они, может быть, до этого момента приобрели. Постоянная переадресация пришла на помощь и в этом случае: она перенаправила все запросы от устаревших адресов к каноническому URL-адресу, что значительно облегчило работу поисковой системы Google. По истечении времени Google снова проверила все URL-адреса, обнаружила переадресацию и направила к каноническому адресу новую порцию Репутации, то есть сделала все так, как и прежде.

Одно из последних заданий для Боба - убедиться, что все URL-адреса, с которыми он работает, максимально производительны; Установив переадресацию на эти ссылки, Боб лишится возможности следить за посещаемостью своего сайта (для этого он использует бесплатные аналитические инструменты Google). Бобу сложно понять, как можно отслеживать URL-адреса на предмет посещаемости и одновременно использовать переадресацию, чтобы избежать дублирований. Он решает положиться на канонический тег в надежде на то, что кто-нибудь из посетителей будет использовать эти URL-адреса при переходе к статье, а поисковая система Google успешно соберет воедино всю Репутацию. Это адекватный компромисс для веб-сайтов масштаба сайта Боба, но он не сработает для крупных организационных сайтов. Если ко всему, что было к настоящему моменту разработано и внедрено, прибавить немного больше технических возможностей и знаний, мы смогли бы добиться того, чтобы сервер принимал запросы для рекламных URL-адресов, а перед тем как совершить переадресацию, сохранял данные об источнике посещения. Так можно было бы «убить двух зайцев»: один URL-адрес одинаково успешно справлялся бы с задачами аккумуляции Репутации и анализа посещаемости.


Add to Social Bookmarks
  • del.ici.ous
  • Digg
  • Furl
  • Google
  • Simpy
  • Spurl
  • Y! MyWeb
  • BobrDobr
  • Mr. Wong
  • Yandex.Bookmarks
  • Text 2.0
  • News2
  • AddScoop
  • RuSpace
  • RUmarkz
  • Memori
  • Google Bookmarks
  • Pisali
  • SMI 2
  • Moe Mesto
  • 100 Zakladok
  • Vaau!
  • Technorati
  • RuCity
  • LinkStore
  • NewsLand
  • Lopas
  • Закладки - I.UA
  • Connotea
  • Bibsonomy
  • Trucking Bookmarks
  • Communizm
  • UCA

Похожие посты:

Комментировать

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>