Повторення з'їдають конверсії: навіщо і як приховувати дублікати?

Олександра Коноваленко
Олександра Коноваленко
16 Січня 2021

Поділитися:

Хочете піднятися вище в результатах пошукової видачі? Сьогодні ми розповімо, як параметри сторінки можуть зашкодити просуванню вашого сайту. Ви дізнаєтеся, що таке дублікати сторінок, розберетесь у причинах їхньої появи, а також дізнаєтесь, які способи допоможуть приховати їх від індексації.

Також поділимося з вами поглядом SEO-експерта Олександра Алаєва про дублікати та способи нейтралізації їхнього негативного впливу на сайт.

Ідентичні сторінки: звідки вони беруться, як їх знайти?

Дублікати — сторінки з повністю або частково ідентичним змістом (неповний дубль), які мають різні URL-адреси. Динамічні URL із параметрами є найчастішою причиною появи дублів.

Зазвичай параметри застосовуються для:

  • пошуку — внутрішній пошук по сайту генерує сторінки результатів, використовуючи параметри;

  • відстеження джерела трафіку і/або пошукових запитів — зазвичай це utm-мітки, які використовують у контекстній рекламі;

  • пагінації — контент ділиться по окремих сторінках для зручності використання товарного каталогу та збільшення швидкості завантаження. Водночас зміст сторінок повністю або частково дублюється;

  • поділу різних версій сайту — мобільна, мовна тощо;

  • фільтрації та сортування товарів у каталозі.

Знайти сторінки, що дублюються, можна за допомогою онлайн-інструментів Siteliner, Copyscape, Screamingfrog або десктопних програм-краулерів Xenu, ScreamingFrog, ComparseR та інших. Майже завжди сторінки-дублі мають однакові title та description.

Безліч комбінацій URL-адрес із однаковим контентом — це проблема для SEO-оптимізації. Особливо поширеними URL-дублювання сторінок є на сайтах електронної комерції. Цьому сприяють функції пошуку, сортування та фільтрації.

Наприклад:

URL без параметрів: https://www.test.com/bytovaya-tehnika/

URL з параметрами:

пошуку: https://www.test.com/search?q=ноутбуки;         

сортування: https://www.test.com/pylesosy/?s=price;

фільтрації: https: //www.test.com/c/355/clothes-zhenskaya-odezhda/? brands = 23673

Також для Ecommerce характерним є часткове дублювання сторінок. Це відбувається через те, що описи товарів і в каталозі, і в картках товарів збігаються. Тому не варто виводити повну інформацію про товари на сторінках каталогу.

Чому треба прибирати дублі сторінок?

Пріоритетними в ранжуванні є сайти з високим ступенем унікальності. Контент і метатеги, що дублюються, її погіршують. Якщо контент повторюється, це погано позначиться на індексації сайту та його пошуковій оптимізації. Пошукова система не може визначити, де дублікат, а де основна сторінка — через це з видачі можуть пропасти потрібні сторінки, а замість них там з'являться дублікати.

  • Якщо релевантні сторінки, які відповідають запиту, будуть постійно змінюватися — ви будете заважати собі ж, і сайт може опуститися в пошуковій видачі. Це називається канібалізація.

  • За великої кількості дублікатів сторінок сайт може довше індексуватися, що теж невигідно і зменшує трафік із пошукових систем. Часто з двох сторінок зі схожим змістом індексується лише одна. І не факт, що коректна.

  • Кількість сторінок, які запланував обійти пошуковий робот на вашому сайті, обмежена. Ви будете витрачати краулінговий бюджет не на сторінки, які ви дійсно хочете показати в результатах пошукової системи, а на сторінки-дублі.

Звичайно ж, ми не будемо просто видаляти всі сторінки з параметрами, адже вони покращують досвід користувачів і допомагають зробити сайт зручнішим. Наприклад, рядок пошуку збільшує конверсію, а відстеження пошуку дає власнику сайту цінну інформацію про користувачів і те, як вони взаємодіють з контентом. Опція фільтрації або сортування є звичною та зручною для покупців інтернет-магазинів, тому що допомагає звузити пошук і зробити його швидшим. Було б нерозумно відмовитися від таких функцій.

Що ж робити з дублікатами сторінок?

1. Використовуємо тег canonical

Розглянемо способи, які допоможуть нам знизити негативний вплив дублікатів сторінок на просування сайту.

Якщо сторінки зі схожим контентом індексуються як окремі сторінки, важливо використовувати канонічні теги.

Тег canonical — це елемент, який додається в код сторінки в розділ <head>, показує пошуковим машинам, що це не головна версія іншої сторінки та вказує на її розташування.

У ecommerce буває, що один і той же товар перебуває в різних категоріях і URL формується від категорії. В результаті з'являється декілька адрес сторінок для одного і того ж товару і потрібно вибрати основну або канонічну адресу. Результат від установки канонічного тега схожий на 301-редирект, але без перенаправлення. Тобто весь авторитет (вага) і накопичені характеристики сторінки будуть передаватися канонічній сторінці від неканонічної. Вам потрібно буде додати в <head> вашої додаткової сторінки спеціальний код.

Наприклад:

на сторінці сортування товарів за ціною https://www.test.com/noutbuki/?s=price

прописаний тег <link rel = "canonical" href = "https://www.test.com/noutbuki/">,

який вказує на основну сторінку (без параметра? s = price).

Зверніть увагу, що вказівка ​​канонічного посилання без протоколу http:// або https:// є помилкою. Посилання обов'язково повинне бути абсолютним, тобто включати протокол, домен і саму адресу.

Канонічний тег повідомляє пошуковим системам пріоритетну сторінку, яку ви хочете відображати на сторінках результату пошуку. Канонічний тег не спрацює, якщо контент сторінок істотно відрізняється — тег може бути проігнорований, тому що він має рекомендаційний характер, а не обов'язковий.

На сайтах, які використовують у своїй практиці canonical, часто зустрічається канонічний тег. Він посилається на ту ж сторінку, де він розташований. Це не є помилкою.

Наприклад:

на сторінці https://www.test.com/pr89849/ може бути вказаний тег

<Link rel = "canonical" href = "https://www.test.com/pr89849/" />

2. Приховуємо дублі за допомогою robots.txt

Сторінки також можна приховати від пошукових роботів за допомогою директиви Disallow: у файлі robots.txt. Цей метод підійде, якщо кількість дублікатів невелика або дублікати генеруються однотипними параметрами — інакше цей процес може затягнутися надовго. Нам потрібно буде внести зміни в файл robots.txt, який керує поведінкою пошукових роботів. Ви його знайдете за адресою: www.yoursite.com/robots.txt. Якщо раптом файлу там немає, скористайтеся генератором robots.txt або просто створіть новий .txt і пропишіть у нього директиви. Зберігаємо файл як robots.txt і поміщаємо в кореневий каталог домену (поруч із головним index.php).

Прописуючи директиву Disallow, ви будете забороняти індексування певних сторінок. У прикладі нижче забороняється індексація всіх URL зі знаком запитання, а значить тих, які містять параметри:

Disallow: / *?

Приклад файлу www.test.com/robots.txt

User-Agent: YadirectBot
Disallow:

User-Agent: YandexDirect
Disallow:

User-agent: *
Disallow: /account
Disallow: /admin
Disallow: /cabinet
Disallow: /company-contacts
Disallow: /context/
Disallow: /error/
Disallow: /feedback/
Disallow: /map/frame_map
Disallow: /opensearch.xml
Disallow: /opinions/create
Disallow: /order_mobile
Disallow: /order_mobile_confirm
Disallow: /order_v2
Disallow: /preview
Disallow: /product_opinion/create
Disallow: /product_view/ajax_
Disallow: /product_view/get_products_for_overlay
Disallow: /company/mark_invalid_phone
Disallow: /redirect
Disallow: /remote
Disallow: /search
Disallow: /shopping_cart
Disallow: /shop_settings/
Disallow: /social_auth/
Disallow: /tracker/
Disallow: /*/shopping_cart
Disallow: /*/partner_links
Disallow: /m*/offers*.html
Disallow: /for-you
Allow: /*?_escaped_fragment_=
Disallow: /*?
Allow: /.well-known/assetlinks.json

У кожної пошукової системи є свої юзер-агенти. В robots.txt ми можемо вказувати окремо кожному агенту, як поводити себе на сайті. Можемо також вказати директиву відразу всім пошуковим агентам — User-agent: *.

Використання "Disallow: /" або "Disallow:" забороняють індексацію всіх сторінок сайту. Так що будьте уважні, працюючи з robots.txt.

3. Прописуємо meta robots і x-robots-tag

Є ще два методи, які визначають правила поведінки пошукових роботів на сторінці:

x-robots-tag (http заголовок);

robots (метатег).

X-Robots-Tag є частиною HTTP заголовка і застосовується, щоб обмежити індексування не HTML файлів. Це можуть бути, наприклад, PDF-документи, картинки, відео тощо. Тобто елементи, "всередині" яких не можна прописати метатег. Але процедура установки x-robots-tag досить складна, то використовується вона вкрай рідко.

Прописати ж метатег robots в HTML-код сторінки набагато легше. Їх використовують, щоб приховати проіндексовані сторінки. Для цього необхідно в <head> прописати <meta name = "robots" content = "noindex" />. Таким чином можна прибрати сторінку з індексу й не допустити потрапляння в нього.

 Значення параметрів, які може приймати meta robots:

  • noindex: не індексувати;

  • index: індексувати (можна не вказувати, якщо не стоїть noindex, сторінка індексується за замовчуванням);

  • follow: (слідувати за посиланнями на сторінці, можна не вказувати, аналогічно index);

  • nofollow: заборона на перехід по посиланнях на сторінці;

  • і деякі інші менш поширені параметри, про які рекомендуємо прочитати в Центрі Пошуку Google.

Цікавий експеримент описаний у блогера Ігоря Бакалова — він перевіряв, чи дійсно пошукові системи враховують meta-robots. Результати виявилися несподіваними, тому рекомендуємо ознайомитися.

Справедливо буде додати, що зазвичай вручну редагується тільки robots.txt файл, а інші способи управління індексацією сторінок або всього сайту здійснюються з CMS і спеціальних знань для цього не потрібно.

"Особисто я вважаю за краще використовувати meta robots всюди, де це можливо"

Александр Алаев
Александр Алаев

Олександр Алаєв

керівник веб-студії “АлаичЪ и Ко” і автор "Блог Алаича"


"Оскільки методів більше одного, з'являється логічне запитання — яким же краще скористатися? З власної практики можу виділити найнадійніший спосіб — метатег robots. Його можна застосовувати не тільки, щоб позбутися дублів, але і в будь-якому іншому випадку, коли необхідно приховати від пошукових систем якусь сторінку. Обмеженням для використання тега canonical є вимога "однаковості" сторінок, а x-robots-tag — взагалі вганяє в ступор більшість фахівців.

Тому фактично ми обираємо зараз між robots.txt і meta robots. Використовувати robots.txt дуже просто та швидко, будь-хто впорається, але у нього є недолік — закриті сторінки все одно можуть відображатися в пошуковій видачі (з припискою про те, що контент сторінки заборонений для індексації за допомогою robots.txt замість сніпета), якщо на них стоять зовнішні посилання. А meta robots не має такої проблеми. Хоча якщо говорити конкретно про SEO і вплив на нього, ця "проблема" — насправді не проблема.

Я вважаю за краще використовувати meta robots всюди, де це можливо. Але ви можете обрати більш простий і швидкий спосіб (robots.txt). Повторюся, для SEO немає ніякої різниці".

Висновки

Уникнути дублікатів сторінок, пов'язаних з параметрами сторінки, повністю не вийде. Але їх потрібно виключати з індексації, щоб не втрачати позиції в пошуковій видачі. Методи з нашого матеріалу допоможуть вам це зробити.

Також корисною буде функція прямі переходи від Multisearch. Суть функції така: при введенні точного запиту користувач відразу переходить на сторінку категорії/бренду/фільтра/товару, минаючи при цьому сторінку пошукових результатів. Таким чином збільшується кількість переглядів сторінок у каталозі, а не всередині сторінок внутрішнього пошуку, які не індексуються. Це позитивно позначиться на ранжуванні сайту, адже кількість користувачів і якість сеансу на цільових сторінках враховується в алгоритмах Google і Yandex.

Поділитися:

Олександра Коноваленко
Автор
Олександра Коноваленко
Редактор блогу Multisearch.

Проста інтеграція
у 2 кроки

Без складних налаштувань. Без витрат на IT.
Вже за годину пошук на вашому сайті стане розумним. 14 днів безкоштовно

1
Вкажіть посилання на
XML фід
2
Пропишіть Javascript
рядок коду
Старт
Ще цікавеньке