Хотите подняться выше в результатах поисковой выдачи?
Сегодня мы расскажем, как параметры страницы могут препятствовать продвижению вашего сайта. Вы узнаете что такое дубликаты страниц, разберём причины их появления, рассмотрим способы которые помогут скрыть их от индексации.
Также вы узнаете мнение SEO эксперта Александра Алаева о дубликатах и способах нейтрализации их негативного влияния на сайт.
Идентичные страницы: где берутся, как все найти?
Дубликаты — страницы с полностью или частично идентичным содержанием (неполный дубль), которые имеют разные URL адреса. Динамические URL с параметрами являются самой частой причиной появления дублей.
Обычно параметры применяются для:
-
поиска — внутренний поиск по сайту генерирует страницы результатов, используя параметры;
-
отслеживания источника трафика и/или поисковых запросов — обычно это utm-метки, используемые в контекстной рекламе;
-
пагинации — контент делится по отдельным страницам для удобства использования товарного каталога и увеличения скорости загрузки. При этом содержание страниц полностью или частично дублируется;
-
разделения разных версий сайта — мобильная, языковая;
-
фильтрации и сортировки товаров в каталоге.
Найти дублирующиеся страницы можно с помощью онлайн-инструментов: Siteliner, Copyscape, Screamingfrog или десктопных программ-краулеров: Xenu, ScreamingFrog, ComparseR и других. Почти всегда дублирующиеся страницы имеют одинаковые title и description.
Множество комбинаций URL адресов с повторяющимся контентом — это проблема для SEO оптимизации. Особенно характерно URL-дублирование страниц для сайтов электронной коммерции. Этому способствуют функции поиска, сортировки и фильтрации на сайте.
Например:
-
URL без параметров: https://www.test.com/bytovaya-tehnika/
-
URL с параметрами:
поиска: https://www.test.com/search?q=ноутбуки;
сортировки: https://www.test.com/pylesosy/?s=price;
фильтрации:https://www.test.com/c/355/clothes-zhenskaya-odezhda/?brands=23673
Также для сектора Ecommerce характерно частичное дублирование страниц. Это происходит из-за того, что описания товаров и в каталоге, и в карточках товаров совпадают. Поэтому не стоит выводить полную информацию о товарах на страницах каталога.
Чем страшны дубли страниц?
Приоритетными в ранжировании являются сайты с высокой степенью уникальности. Повторяющийся контент и мета-теги её не добавят. Если контент повторяется, это плохо отразится на индексации сайта, а как следствие и на его поисковой оптимизации. Поисковая система не может определить, где дубликат, а где основная страница — из-за этого из выдачи могут пропасть нужные страницы, а вместо них там окажутся дубликаты.
-
Если релевантные страницы, которые соответствуют запросу, будут постоянно меняться — вы будете себе же мешать, и сайт может опуститься в поисковой выдаче. Это называется каннибализация.
-
При большом количестве дубликатов страниц сайт может дольше индексироваться, что тоже не выгодно и уменьшит трафик с поиска. Часто из двух страниц с похожим содержанием индексируется лишь одна и не факт, что корректная.
-
Количество страниц, которые запланировал обойти поисковый робот на вашем сайте, ограничено. А вы будете тратить краулинговый бюджет не на страницы, которые вы действительно хотите отобразить в результатах поисковой системы, а на дублирующие страницы.
Конечно же, мы не будем просто удалять все страницы с параметрами, так как они улучшают пользовательский опыт и помогают сделать сайт лучше. К примеру, строка поиска — увеличивает конверсию, а отслеживание поиска даёт владельцу сайта ценную информацию о пользователях и том, как они взаимодействуют с контентом. Опция фильтрации или сортировки является привычной и очень удобной для покупателей интернет-магазинов, потому что помогает сузить поиск и сделать его быстрее. Было бы глупо отказаться от таких функций.
Что же делать с дубликатами страниц?
1. Используем тег canonical
Рассмотрим способы, которые помогут нам снизить негативное влияние дубликатов страниц на продвижение сайта.
В случае, если страницы с похожим контентом индексируются как отдельные страницы, важно использовать канонические теги.
Тег canonical — это элемент, который добавляется в код страницы в раздел <head> и говорит поисковым машинам, что это неглавная версия другой страницы и указывает на её расположение.
В Ecommerce бывает, что один и тот же товар находится в разных категориях и URL формируется от категории. Как следствие, появляется несколько адресов страниц для одного и того же товара и нужно выбрать основной или канонический адрес. Результат от установки канонического тега похож на 301-редирект, но без перенаправления. То есть весь авторитет (вес) и накопленные характеристики страницы будут передаваться канонической странице от неканонической. Вам нужно будет добавить в <head> вашей дополнительной страницы специальный код.
Обратите внимание, что указание канонической ссылки без протокола http:// или https:// является ошибкой. Ссылка обязательно должна быть абсолютной, то есть включать в себя протокол, домен и сам адрес.
Канонический тег сообщает поисковым системам предпочтительную страницу, которая должна отображаться на страницах результата поиска. Канонический тег не сработает, если контент страниц существенно отличается — тег может быть проигнорирован, так как он носит рекомендательный характер, а не обязательный.
На сайтах, которые используют в своей практике canonical, часто встречается канонический тег. Он ссылается на ту же страницу, где он и расположен. Это не является ошибкой.
2. Скрываем дубли с помощью robots.txt
Страницы также можно скрыть от поисковых роботов с помощью директивы Disallow: в файле robots.txt. Этот метод подойдёт, если количество дубликатов небольшое или дубликаты генерируются однотипными параметрами — иначе этот процесс может затянуться надолго. Нам нужно будет внести изменения в файл robots.txt, который управляет поведением поисковых роботов. Вы его найдёте по адресу: www.yoursite.com/robots.txt. Если вдруг файла там нет, воспользуйтесь генератором robots.txt или просто создайте новый .txt и пропишите в него директивы. Сохраняем файл как robots.txt и помещаем в корневой каталог домена (рядом с главным index.php).
Прописывая директиву Disallow, вы будете запрещать индексирование определенных страниц. В случае указанном ниже запрещается индексация всех URL с вопросительным знаком, а значит тех, которые содержат параметры:
Disallow: /*?
Пример файла www.test.com/robots.txt
У каждой поисковой системы есть свои юзер-агенты. В robots.txt мы можем указывать отдельно каждому агенту, как себя вести на сайте. Можем также указать директиву сразу всем поисковым агентам — User-agent:*.
Использование “Disallow: /” или “Disallow:” запрещают индексацию всех страниц сайта. Так что будьте внимательны, работая с robots.txt
3. Прописываем meta robots и x-robots-tag
Есть еще два метода, которые определяют правила поведения поисковых роботов на странице:
-
x-robots-tag (http заголовок);
-
robots (мета-тег).
X-Robots-Tag является частью HTTP заголовка и применяется, в основном, чтобы ограничить индексирование не HTML файлов. Это могут быть, например: PDF-документы, картинки, видео и т.д. — то есть элементы, “внутри” которых нельзя прописать мета-тег. Но так как процедура установки x-robots-tag довольно сложна, то используется она крайне редко.
Прописать же мета-тег robots в HTML-код страницы намного легче. Их используют, чтобы скрыть проиндексированные страницы. Для этого необходимо в <head> прописать <meta name="robots" content="noindex" />. Таким образом можно убрать страницу из индекса и не допустить попадания в него.
Значение параметров, которые может принимать meta robots:
-
noindex: не индексировать,
-
index: индексировать (можно не указывать, так как если не стоит noindex, страница индексируется по умолчанию,
-
follow: (следовать по ссылкам на странице, можно не указывать, аналогично index),
-
nofollow: запрет на переход по ссылкам на странице,
-
и некоторые другие, менее распространенные параметры, о которых рекомендуем прочитать в Центре Поиска Google.
Интересный эксперимент описан у блогера Игоря Бакалова — он проверял на самом ли деле поисковые системы учитывают meta-robots. Результаты оказались неожиданными, так что рекомендуем ознакомиться.
Справедливо будет добавить, что обычно вручную редактируется только robots.txt файл, а остальные методы управления индексацией страниц или всего сайта в целом осуществляются из CMS и специальных знаний для этого не требуется.
"Лично я предпочитаю использовать meta robots везде, где это возможно"
Итоги
Избежать дубликатов страниц, связанных с параметрами страницы, полностью не получится. Но их нужно исключать из индексации, чтобы не терять позиции в поисковой выдаче. Методы описанные выше помогут вам это сделать.
Также полезной будет функция прямые переходы от Multisearch. Суть функции такая: при введении точного запроса пользователь сразу переходит на страницу категории/бренда/фильтра/товара, минуя при этом страницу поисковых результатов. Таким образом увеличивается количество просмотров страниц в каталоге, а не внутри неиндексируемых страниц внутреннего поиска. Это положительно скажется на ранжировании сайта, так как количество пользователей и качество сеанса на целевых страницах учитывается в алгоритмах Google и Yandex.