Robots.txt і Sitemap: що це таке і навіщо вони вашому сайту

Як Google обходить сайти

Google не читає сайти як людина. Він надсилає автоматичних роботів — «павуків» — які переходять по посиланнях і збирають вміст сторінок. Цей процес називається краулінг. Після краулінгу сторінки потрапляють в індекс — базу з якої Google і показує результати пошуку.

Але Google не може обійти мільярди сайтів безкінечно — у нього є ліміт на кожен сайт (crawl budget). Тому важливо допомогти йому: показати що потрібно індексувати, а що — ні.

Саме для цього і існують два файли — robots.txt і sitemap.xml. Перший каже роботам де не треба ходити, другий показує де треба.

Robots.txt: правила для пошукових роботів

Robots.txt — звичайний текстовий файл що лежить за адресою вашсайт.ua/robots.txt. Google перевіряє його першим ділом перед тим як почати обходити сайт.

Він виглядає приблизно так:

User-agent: *

Disallow: /wp-admin/

Disallow: /cart/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://вашсайт.ua/sitemap.xml

Читається просто: «Всім роботам (User-agent: *) — не заходити в /wp-admin/ і /cart/. Але /wp-admin/admin-ajax.php — можна. Карта сайту ось тут.»

Що варто закривати від індексації

  • Адмінпанель (/wp-admin/) — не потрібна в пошуку
  • Кошик і сторінки оформлення замовлення — технічні сторінки
  • Сторінки з параметрами URL фільтрів (?color=red&size=M) — дублі контенту
  • Тестові і службові розділи сайту

Що НЕ варто закривати

CSS і JavaScript файли теми і плагінів. Це поширена стара порада яка давно застаріла. Google потребує ці файли щоб правильно рендерити сторінку і оцінити її — якщо закриєте, він може неправильно зрозуміти що на сторінці.

Важливо: robots.txt — це рекомендація, не замок. Недобросовісні боти його ігнорують. Щоб сторінка точно не потрапила в індекс — використовуйте мета-тег noindex на самій сторінці.

Хочете знати що гальмує ваш сайт?

SEO-аудит — знайду технічні проблеми і дам план виправлень

Замовити аудит

Sitemap.xml: карта сайту для Google

Sitemap.xml — файл зі списком всіх сторінок які ви хочете щоб Google знайшов і проіндексував. Він лежить за адресою вашсайт.ua/sitemap.xml.

Для кожної сторінки в sitemap можна вказати:

  • URL — адреса сторінки (обов'язково)
  • lastmod — коли востаннє змінювалась (Google орієнтується чи потрібно переобходити)
  • changefreq — як часто змінюється (підказка, Google не зобов'язаний слідувати)
  • priority — відносна важливість серед сторінок сайту

Навіщо він потрібен якщо Google і так знайде сторінки?

Знайде — але не обов'язково всі і не обов'язково швидко. Sitemap особливо важливий для:

  • Нових сайтів де ще мало зовнішніх посилань
  • Великих сайтів з сотнями сторінок
  • Сторінок без внутрішніх посилань на них
  • Нових статей блогу — sitemap прискорює їх індексацію

Як подати sitemap до Google

Відкрийте Google Search Console → Sitemap → введіть URL файлу. Google підтвердить що знайшов його і покаже скільки сторінок прийнято. Після цього він автоматично перевіряє sitemap при кожному обході.

Типові помилки які вбивають індексацію

1. Весь сайт закритий у robots.txt

Класика: розробник під час розробки закрив сайт рядком Disallow: / щоб Google не індексував незавершений сайт — і забув прибрати після запуску. Сайт є, але в пошуку його немає.

2. В sitemap є noindex-сторінки

Суперечливий сигнал для Google: sitemap каже «індексуй цю сторінку», а мета-тег на ній каже «не індексуй». Google заплутується і витрачає crawl budget на з'ясування.

3. В sitemap неправильні URL

Sitemap містить http:// а сайт давно на https://. Або www-версія замість основної. Google вважає їх різними URL — дублі контенту, плутанина з індексацією.

4. Sitemap не оновлюється автоматично

Опублікували нову статтю — а її немає в sitemap бо він статичний. WordPress з правильно налаштованим SEO-плагіном або динамічний sitemap вирішують це автоматично.

Як перевірити свій сайт

Три хвилини і базову картину отримаєте:

  1. Відкрийте вашсайт.ua/robots.txt — файл має існувати і не містити Disallow: /
  2. Відкрийте вашсайт.ua/sitemap.xml — має бути список ваших сторінок
  3. Перевірте Google Search Console → Покриття — чи немає сторінок зі статусом «Виключено через robots.txt» яким там не місце

Robots.txt і sitemap — лише частина технічного SEO. Якщо хочете повну перевірку всіх технічних параметрів сайту — замовте SEO-аудит, robots.txt і sitemap входять у базовий чекліст.

Часті запитання

Технічно — ні, сайт буде працювати без них. Але практично — так. Без robots.txt Google не знає що не треба індексувати і може витрачати ресурси на службові сторінки. Без sitemap він може не знайти або повільно знаходити важливі сторінки, особливо на новому сайті.

Якщо встановлений Yoast SEO або Rank Math — sitemap генерується автоматично за адресою вашсайт.ua/sitemap.xml або вашсайт.ua/sitemap_index.xml. Плагін автоматично додає нові сторінки і статті. Для кастомних сайтів sitemap генерується кодом або окремим скриптом.

Тільки ті що ви хочете бачити в пошуку. Службові сторінки (кошик, оформлення замовлення, особистий кабінет), сторінки з noindex, дублі — не включайте. Один sitemap може містити до 50 000 URL, для більших сайтів робиться sitemap index з кількох файлів.

Disallow: / забороняє GoogleBot обходити сторінки — але не гарантує що вони зникнуть з індексу. Google може знати про URL з зовнішніх посилань і показувати їх без вмісту. Щоб сторінка точно не з'явилась в пошуку — потрібен мета-тег noindex, а не тільки robots.txt.

Приблизно раз на добу, але може кешувати до 24 годин. Якщо внесли зміни в robots.txt — попросіть Google оновити кеш через Search Console (Налаштування → Robots.txt). Для термінових змін це важливо.

Коротко

Robots.txt — список заборон для Google: «сюди не ходи». Sitemap.xml — список запрошень: «ось всі сторінки, будь ласка проіндексуй». Обидва файли потрібні кожному сайту.

Перевірте свій сайт прямо зараз — відкрийте /robots.txt і /sitemap.xml. Якщо щось виглядає не так або файлів немає взагалі — це одна з перших речей що виправляємо при технічному SEO.

Читайте також