Robots.txt і Sitemap: що це таке і навіщо вони вашому сайту
Як Google обходить сайти
Google не читає сайти як людина. Він надсилає автоматичних роботів — «павуків» — які переходять по посиланнях і збирають вміст сторінок. Цей процес називається краулінг. Після краулінгу сторінки потрапляють в індекс — базу з якої Google і показує результати пошуку.
Але Google не може обійти мільярди сайтів безкінечно — у нього є ліміт на кожен сайт (crawl budget). Тому важливо допомогти йому: показати що потрібно індексувати, а що — ні.
Саме для цього і існують два файли — robots.txt і sitemap.xml. Перший каже роботам де не треба ходити, другий показує де треба.
Robots.txt: правила для пошукових роботів
Robots.txt — звичайний текстовий файл що лежить за адресою вашсайт.ua/robots.txt. Google перевіряє його першим ділом перед тим як почати обходити сайт.
Він виглядає приблизно так:
User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://вашсайт.ua/sitemap.xml
Читається просто: «Всім роботам (User-agent: *) — не заходити в /wp-admin/ і /cart/. Але /wp-admin/admin-ajax.php — можна. Карта сайту ось тут.»
Що варто закривати від індексації
- Адмінпанель (/wp-admin/) — не потрібна в пошуку
- Кошик і сторінки оформлення замовлення — технічні сторінки
- Сторінки з параметрами URL фільтрів (?color=red&size=M) — дублі контенту
- Тестові і службові розділи сайту
Що НЕ варто закривати
CSS і JavaScript файли теми і плагінів. Це поширена стара порада яка давно застаріла. Google потребує ці файли щоб правильно рендерити сторінку і оцінити її — якщо закриєте, він може неправильно зрозуміти що на сторінці.
Важливо: robots.txt — це рекомендація, не замок. Недобросовісні боти його ігнорують. Щоб сторінка точно не потрапила в індекс — використовуйте мета-тег noindex на самій сторінці.
Хочете знати що гальмує ваш сайт?
SEO-аудит — знайду технічні проблеми і дам план виправлень
Sitemap.xml: карта сайту для Google
Sitemap.xml — файл зі списком всіх сторінок які ви хочете щоб Google знайшов і проіндексував. Він лежить за адресою вашсайт.ua/sitemap.xml.
Для кожної сторінки в sitemap можна вказати:
- URL — адреса сторінки (обов'язково)
- lastmod — коли востаннє змінювалась (Google орієнтується чи потрібно переобходити)
- changefreq — як часто змінюється (підказка, Google не зобов'язаний слідувати)
- priority — відносна важливість серед сторінок сайту
Навіщо він потрібен якщо Google і так знайде сторінки?
Знайде — але не обов'язково всі і не обов'язково швидко. Sitemap особливо важливий для:
- Нових сайтів де ще мало зовнішніх посилань
- Великих сайтів з сотнями сторінок
- Сторінок без внутрішніх посилань на них
- Нових статей блогу — sitemap прискорює їх індексацію
Як подати sitemap до Google
Відкрийте Google Search Console → Sitemap → введіть URL файлу. Google підтвердить що знайшов його і покаже скільки сторінок прийнято. Після цього він автоматично перевіряє sitemap при кожному обході.
Типові помилки які вбивають індексацію
1. Весь сайт закритий у robots.txt
Класика: розробник під час розробки закрив сайт рядком Disallow: / щоб Google не індексував незавершений сайт — і забув прибрати після запуску. Сайт є, але в пошуку його немає.
2. В sitemap є noindex-сторінки
Суперечливий сигнал для Google: sitemap каже «індексуй цю сторінку», а мета-тег на ній каже «не індексуй». Google заплутується і витрачає crawl budget на з'ясування.
3. В sitemap неправильні URL
Sitemap містить http:// а сайт давно на https://. Або www-версія замість основної. Google вважає їх різними URL — дублі контенту, плутанина з індексацією.
4. Sitemap не оновлюється автоматично
Опублікували нову статтю — а її немає в sitemap бо він статичний. WordPress з правильно налаштованим SEO-плагіном або динамічний sitemap вирішують це автоматично.
Як перевірити свій сайт
Три хвилини і базову картину отримаєте:
- Відкрийте вашсайт.ua/robots.txt — файл має існувати і не містити Disallow: /
- Відкрийте вашсайт.ua/sitemap.xml — має бути список ваших сторінок
- Перевірте Google Search Console → Покриття — чи немає сторінок зі статусом «Виключено через robots.txt» яким там не місце
Robots.txt і sitemap — лише частина технічного SEO. Якщо хочете повну перевірку всіх технічних параметрів сайту — замовте SEO-аудит, robots.txt і sitemap входять у базовий чекліст.
Часті запитання
Технічно — ні, сайт буде працювати без них. Але практично — так. Без robots.txt Google не знає що не треба індексувати і може витрачати ресурси на службові сторінки. Без sitemap він може не знайти або повільно знаходити важливі сторінки, особливо на новому сайті.
Якщо встановлений Yoast SEO або Rank Math — sitemap генерується автоматично за адресою вашсайт.ua/sitemap.xml або вашсайт.ua/sitemap_index.xml. Плагін автоматично додає нові сторінки і статті. Для кастомних сайтів sitemap генерується кодом або окремим скриптом.
Тільки ті що ви хочете бачити в пошуку. Службові сторінки (кошик, оформлення замовлення, особистий кабінет), сторінки з noindex, дублі — не включайте. Один sitemap може містити до 50 000 URL, для більших сайтів робиться sitemap index з кількох файлів.
Disallow: / забороняє GoogleBot обходити сторінки — але не гарантує що вони зникнуть з індексу. Google може знати про URL з зовнішніх посилань і показувати їх без вмісту. Щоб сторінка точно не з'явилась в пошуку — потрібен мета-тег noindex, а не тільки robots.txt.
Приблизно раз на добу, але може кешувати до 24 годин. Якщо внесли зміни в robots.txt — попросіть Google оновити кеш через Search Console (Налаштування → Robots.txt). Для термінових змін це важливо.
Коротко
Robots.txt — список заборон для Google: «сюди не ходи». Sitemap.xml — список запрошень: «ось всі сторінки, будь ласка проіндексуй». Обидва файли потрібні кожному сайту.
Перевірте свій сайт прямо зараз — відкрийте /robots.txt і /sitemap.xml. Якщо щось виглядає не так або файлів немає взагалі — це одна з перших речей що виправляємо при технічному SEO.