Повторение съедает конверсии: зачем и как скрывать дубликаты?

Александра Коноваленко

16 января 2021

Хотите подняться выше в результатах поисковой выдачи?
Сегодня мы расскажем, как параметры страницы могут препятствовать продвижению вашего сайта. Вы узнаете что такое дубликаты страниц, разберём причины их появления, рассмотрим способы которые помогут скрыть их от индексации.
Также вы узнаете мнение SEO эксперта Александра Алаева о дубликатах и способах нейтрализации их негативного влияния на сайт.

Идентичные страницы: где берутся, как все найти?

Дубликаты — страницы с полностью или частично идентичным содержанием (неполный дубль), которые имеют разные URL адреса. Динамические URL с параметрами являются самой частой причиной появления дублей.

Обычно параметры применяются для:

поиска — внутренний поиск по сайту генерирует страницы результатов, используя параметры;
отслеживания источника трафика и/или поисковых запросов — обычно это utm-метки, используемые в контекстной рекламе;
пагинации — контент делится по отдельным страницам для удобства использования товарного каталога и увеличения скорости загрузки. При этом содержание страниц полностью или частично дублируется;
разделения разных версий сайта — мобильная, языковая;
фильтрации и сортировки товаров в каталоге.

Найти дублирующиеся страницы можно с помощью онлайн-инструментов: Siteliner, Copyscape, Screamingfrog или десктопных программ-краулеров: Xenu, ScreamingFrog, ComparseR и других. Почти всегда дублирующиеся страницы имеют одинаковые title и description.
Множество комбинаций URL адресов с повторяющимся контентом — это проблема для SEO оптимизации. Особенно характерно URL-дублирование страниц для сайтов электронной коммерции. Этому способствуют функции поиска, сортировки и фильтрации на сайте.

Например:

URL без параметров: https://www.test.com/bytovaya-tehnika/
URL с параметрами:

поиска: https://www.test.com/search?q=ноутбуки;

сортировки: https://www.test.com/pylesosy/?s=price;

фильтрации:https://www.test.com/c/355/clothes-zhenskaya-odezhda/?brands=23673

Также для сектора Ecommerce характерно частичное дублирование страниц. Это происходит из-за того, что описания товаров и в каталоге, и в карточках товаров совпадают. Поэтому не стоит выводить полную информацию о товарах на страницах каталога.

Чем страшны дубли страниц?

Приоритетными в ранжировании являются сайты с высокой степенью уникальности. Повторяющийся контент и мета-теги её не добавят. Если контент повторяется, это плохо отразится на индексации сайта, а как следствие и на его поисковой оптимизации. Поисковая система не может определить, где дубликат, а где основная страница — из-за этого из выдачи могут пропасть нужные страницы, а вместо них там окажутся дубликаты.

Если релевантные страницы, которые соответствуют запросу, будут постоянно меняться — вы будете себе же мешать, и сайт может опуститься в поисковой выдаче. Это называется каннибализация.
При большом количестве дубликатов страниц сайт может дольше индексироваться, что тоже не выгодно и уменьшит трафик с поиска. Часто из двух страниц с похожим содержанием индексируется лишь одна и не факт, что корректная.
Количество страниц, которые запланировал обойти поисковый робот на вашем сайте, ограничено. А вы будете тратить краулинговый бюджет не на страницы, которые вы действительно хотите отобразить в результатах поисковой системы, а на дублирующие страницы.

Конечно же, мы не будем просто удалять все страницы с параметрами, так как они улучшают пользовательский опыт и помогают сделать сайт лучше. К примеру, строка поиска — увеличивает конверсию, а отслеживание поиска даёт владельцу сайта ценную информацию о пользователях и том, как они взаимодействуют с контентом. Опция фильтрации или сортировки является привычной и очень удобной для покупателей интернет-магазинов, потому что помогает сузить поиск и сделать его быстрее. Было бы глупо отказаться от таких функций.

Что же делать с дубликатами страниц?

1. Используем тег canonical

Рассмотрим способы, которые помогут нам снизить негативное влияние дубликатов страниц на продвижение сайта.
В случае, если страницы с похожим контентом индексируются как отдельные страницы, важно использовать канонические теги.
Тег canonical — это элемент, который добавляется в код страницы в раздел <head> и говорит поисковым машинам, что это неглавная версия другой страницы и указывает на её расположение.

В Ecommerce бывает, что один и тот же товар находится в разных категориях и URL формируется от категории. Как следствие, появляется несколько адресов страниц для одного и того же товара и нужно выбрать основной или канонический адрес. Результат от установки канонического тега похож на 301-редирект, но без перенаправления. То есть весь авторитет (вес) и накопленные характеристики страницы будут передаваться канонической странице от неканонической. Вам нужно будет добавить в <head> вашей дополнительной страницы специальный код.

Например:
на странице сортировки товаров по цене https://www.test.com/noutbuki/?s=price
прописан тег <link rel="canonical" href="https://www.test.com/noutbuki/">,
который указывает на основную страницу (без параметра ?s=price).

Обратите внимание, что указание канонической ссылки без протокола http:// или https:// является ошибкой. Ссылка обязательно должна быть абсолютной, то есть включать в себя протокол, домен и сам адрес.

Канонический тег сообщает поисковым системам предпочтительную страницу, которая должна отображаться на страницах результата поиска. Канонический тег не сработает, если контент страниц существенно отличается — тег может быть проигнорирован, так как он носит рекомендательный характер, а не обязательный.

На сайтах, которые используют в своей практике canonical, часто встречается канонический тег. Он ссылается на ту же страницу, где он и расположен. Это не является ошибкой.

Например:
на странице https://www.test.com/pr89849/ может быть указан тег
<link rel="canonical" href="https://www.test.com/pr89849/" />

2. Скрываем дубли с помощью robots.txt

Страницы также можно скрыть от поисковых роботов с помощью директивы Disallow: в файле robots.txt. Этот метод подойдёт, если количество дубликатов небольшое или дубликаты генерируются однотипными параметрами — иначе этот процесс может затянуться надолго. Нам нужно будет внести изменения в файл robots.txt, который управляет поведением поисковых роботов. Вы его найдёте по адресу: www.yoursite.com/robots.txt. Если вдруг файла там нет, воспользуйтесь генератором robots.txt или просто создайте новый .txt и пропишите в него директивы. Сохраняем файл как robots.txt и помещаем в корневой каталог домена (рядом с главным index.php).

Прописывая директиву Disallow, вы будете запрещать индексирование определенных страниц. В случае указанном ниже запрещается индексация всех URL с вопросительным знаком, а значит тех, которые содержат параметры:

Disallow: /*?
Пример файла www.test.com/robots.txt

User-Agent: YadirectBot
Disallow:

User-Agent: YandexDirect
Disallow:

User-agent: *
Disallow: /account
Disallow: /admin
Disallow: /cabinet
Disallow: /company-contacts
Disallow: /context/
Disallow: /error/
Disallow: /feedback/
Disallow: /map/frame_map
Disallow: /opensearch.xml
Disallow: /opinions/create
Disallow: /order_mobile
Disallow: /order_mobile_confirm
Disallow: /order_v2
Disallow: /preview
Disallow: /product_opinion/create
Disallow: /product_view/ajax_
Disallow: /product_view/get_products_for_overlay
Disallow: /company/mark_invalid_phone
Disallow: /redirect
Disallow: /remote
Disallow: /search
Disallow: /shopping_cart
Disallow: /shop_settings/
Disallow: /social_auth/
Disallow: /tracker/
Disallow: /*/shopping_cart
Disallow: /*/partner_links
Disallow: /m*/offers*.html
Disallow: /for-you
Allow: /*?_escaped_fragment_=
Disallow: /*?
Allow: /.well-known/assetlinks.json

У каждой поисковой системы есть свои юзер-агенты. В robots.txt мы можем указывать отдельно каждому агенту, как себя вести на сайте. Можем также указать директиву сразу всем поисковым агентам — User-agent:*.
Использование “Disallow: /” или “Disallow:” запрещают индексацию всех страниц сайта. Так что будьте внимательны, работая с robots.txt

3. Прописываем meta robots и x-robots-tag

Есть еще два метода, которые определяют правила поведения поисковых роботов на странице:

x-robots-tag (http заголовок);
robots (мета-тег).

X-Robots-Tag является частью HTTP заголовка и применяется, в основном, чтобы ограничить индексирование не HTML файлов. Это могут быть, например: PDF-документы, картинки, видео и т.д. — то есть элементы, “внутри” которых нельзя прописать мета-тег. Но так как процедура установки x-robots-tag довольно сложна, то используется она крайне редко.

Прописать же мета-тег robots в HTML-код страницы намного легче. Их используют, чтобы скрыть проиндексированные страницы. Для этого необходимо в <head> прописать <meta name="robots" content="noindex" />. Таким образом можно убрать страницу из индекса и не допустить попадания в него.

Значение параметров, которые может принимать meta robots:

noindex: не индексировать,
index: индексировать (можно не указывать, так как если не стоит noindex, страница индексируется по умолчанию,
follow: (следовать по ссылкам на странице, можно не указывать, аналогично index),
nofollow: запрет на переход по ссылкам на странице,
и некоторые другие, менее распространенные параметры, о которых рекомендуем прочитать в Центре Поиска Google.

Интересный эксперимент описан у блогера Игоря Бакалова — он проверял на самом ли деле поисковые системы учитывают meta-robots. Результаты оказались неожиданными, так что рекомендуем ознакомиться.

Справедливо будет добавить, что обычно вручную редактируется только robots.txt файл, а остальные методы управления индексацией страниц или всего сайта в целом осуществляются из CMS и специальных знаний для этого не требуется.

"Лично я предпочитаю использовать meta robots везде, где это возможно"

Александр Алаев

руководитель веб-студии “АлаичЪ и Ко” и автор “блог Алаича”

“Так как методов больше одного, появляется логичный вопрос — каким же лучше воспользоваться? Из собственной практики могу выделить самый надежный способ — мета-тег robots. Его можно применять не только для избавления от дублей, но и в любом другом случае, когда необходимо скрыть от поисковиков какую-то страницу. Ограничением для использования тега canonical является требование “одинаковости” страниц, а x-robots-tag — вообще вгоняет в ступор большинство специалистов.

Поэтому фактически мы выбираем сейчас между robots.txt и meta robots. Использовать robots.txt очень просто и быстро, любой справится, но у него есть изъян — закрытые страницы все равно могут отображаться в поисковой выдаче (с припиской о том, что контент страницы запрещен для индексации при помощи robots.txt вместо сниппета), если на них стоят внешние ссылки. А meta robots не имеет такой проблемы. Хотя если говорить конкретно про seo и влияние на него, эта “проблема” - не проблема, на самом деле.

Лично я предпочитаю использовать meta robots везде, где это возможно. Но вы можете выбрать более простой и быстрый способ (robots.txt). Повторюсь, для seo это не имеет никакой разницы”.

Итоги

Избежать дубликатов страниц, связанных с параметрами страницы, полностью не получится. Но их нужно исключать из индексации, чтобы не терять позиции в поисковой выдаче. Методы описанные выше помогут вам это сделать.
Также полезной будет функция прямые переходы от Multisearch. Суть функции такая: при введении точного запроса пользователь сразу переходит на страницу категории/бренда/фильтра/товара, минуя при этом страницу поисковых результатов. Таким образом увеличивается количество просмотров страниц в каталоге, а не внутри неиндексируемых страниц внутреннего поиска. Это положительно скажется на ранжировании сайта, так как количество пользователей и качество сеанса на целевых страницах учитывается в алгоритмах Google и Yandex.

Интернет-магазиныВопрос-ответSEOЛайфхаки

Автор

Александра Коноваленко

Автор статей для блога Multisearch.