Миф о наказании за дублированный контент

Существует много путаницы вокруг того, как Google обрабатывает дублированный контент. Комментатор Патрик Стокс стремится внести ясность раз и навсегда.

Ходит так много мифов вокруг дублированного контента, что люди взаправду думают, что это приводит к санкциям поисковых систем и что страницы одного сайта способны конкурировать друг с другом и могут отрицательно повлиять на продвижение. Мы видим сообщения на SEO-форумах, темы на Reddit, статьи по техническому веб-аудиту, готовые инструменты и SEO-новостные сайты со статьями, которые говорят, что люди явно не понимают как Google обрабатывает страницы с дублированным контентом.

Google пытался развеять мифы вокруг дублированного контента несколько лет назад. Статья Сюзан Москва размещена на блоге веб-мастеров Google в 2008 году:

Давайте закроем этот вопрос раз и навсегда. Нет такого понятия, как говорят многие люди, что наказание за дублированный контент неизбежно наступит. Вы можете помочь своим коллегам веб-мастерам в деле развенчания мифа о наложении штрафных санкций за дублированный контент.

Сожалеем, но большинство не услышало вас, Сюзан.

Что такое дублированный контент?

Согласно определению Google:

Повторяющимся контентом обычно называют большие блоки информации в рамках одного или нескольких доменов, содержание которых либо полностью совпадает, либо почти не отличается. Как правило, в данном случае не преследуется цель ввода пользователя в заблуждение. Повторяющийся контент может использоваться без злого умысла, например:

— страницы форумов в обычных версиях сайтов и версиях для мобильных устройств;
— товары в интернет-магазине, показываемые при переходе по разным URL;
— версии страниц для печати.

Люди ошибочно думают о штрафе за наличие дублированного контента, потому что Google обрабатывает его. На самом деле, дубли просто фильтруются в результатах поиска. Вы можете подтвердить это для себя, добавив &filter=0 в конце URL в поисковой выдаче, тем самым удалив всякую фильтрацию.

В частном случае, скорее всего, вы увидите две версии одной страницы в HTTP и в HTTPS. И это будет правильным подходом в использовании канонических ссылок. Но это также показывает, что дублируемая страница действительно индексируется и с применением фильтра показывается наиболее значимая. Это не значит, что две дублирующиеся страницы будут конкурировать или наносить вред самим себе и всему сайту.

Сколько дублированного контента в Интернете?

По словам Matt Cutts от 25 до 30% всего контента, находящегося в Интернете, является дублированным.

Недавнее исследование Raven Tools на основании аудиторского инструмента поддержал подобный результат в том, что 29% страниц в Интернете являются дублированным контентом.

Что думает компания Google о дублированном контенте?

Очень много больших постов было опубликовано в Google по дублированному контенту. Здесь приводятся краткие выдержки из лучших статей:

— Дублированный контент не может стать основанием для наложения бана на ваш сайт;

— В Google знают, что пользователи хотят разнообразия в результатах поиска, а не одну и ту же статью много раз, поэтому они решили консолидировать результаты поиска и показать только одну версию;

— В Google, на самом деле, разработаны алгоритмы для предотвращения дублирования контента, вызванного действиями веб-мастеров. Эти алгоритмы группируют различные версии дублированной статьи в кластер. Отображается «лучший» URL в кластере. Они консолидируют различные сущности, например ссылки, из всех страниц кластера. В Google пошли еще дальше и сказали, что если вы не хотите беспокоится о сортировке дублированного контента на вашем сайте, вы можете сообщить нам об этом и мы побеспокоимся об этом за вас;

— Дублированный контент не является основанием для принятия мер, если целью его возникновения не является манипулирование результатами поиска;

— Самое худшее, что может случится с фильтрацией дублированного контента, это выдача менее желательной версии страницы в результатах поиска;

— Google пытается определить первоисточник дублированного контента и отобразить его в результатах поиска;

— Если кто-то дублировал контент без разрешения, вы можете запросить его удаление путем подачи запроса в соответствии с Законом о защите авторских прав;

— Не блокируйте доступ к дублированному контенту. Если Google не сможет отсканировать все версии, он не сможет консолидировать все теги (ссылки, изображения и т.д.)

Причины возникновения дублированного контента

  1. HTTP и HTTPS
  2. WWW и без WWW
  3. Параметры навигации
  4. ID сессии
  5. Слеши
  6. Пагинация
  7. Альтернативные версии страниц. AMP или печать.
  8. dev и другие нюансы хостинга
  9. Указатели страниц
  10. Теги
  11. Языковые версии

Дублированный контент

Многие люди больше боятся дублированного контента, чем спам-ссылок

Решения проблемы дублированного контента

Решение будет зависеть от конкретной ситуации:

  • Ничего не делать. Google дает вам на это право.
  • Канонические теги. Эти теги используются для объединения url и выбора наилучшего варианта. Бывает такое, что канонические теги установлены правильно, а аудит говорит, что есть проблемы дублированного контента. На самом деле, это проблемой не является.
  • 301 редирект. Это позволит предотвратить проблемы дублирования путем подавления возникновения некоторых альтернативных версий страницы.
  • Сообщение Google, как обрабатывать параметр URL.
  • Использование rel="alternate". Используется для закрепления альтернативных версий страницы, таких как мобильная версия, версии для разных стран, версии для разных языков. Некоторое время назад Джон Мюллер отвечая на вопрос веб-мастеров на видеовстрече, сказал, что установка href lang  не приведет к увеличению рейтинга, но только поможет правильно определить версию для показа страницы.
  • Установка rel=”prev” and rel=”next”. Используется для пагинации страниц.

По материалам оригинальной статьи.

 

Добавить комментарий

Ваш e-mail не будет опубликован.