Как настроить файл robots.txt для WordPress и Bitrix: инструкция, шаблоны и стратегия управления краулингом
Файл robots.txt — первый инструмент, который встречает поискового робота на сайте. От его правильной настройки зависит, какие страницы попадут в индекс, а какие останутся за его пределами. Ошибки в этом файле могут стоить потери трафика и неправильного распределения краулингового бюджета. По нашему опыту (280+ проектов), до 40% проблем с индексацией связаны именно с некорректными директивами в robots.txt. В этой инструкции разберём, как настроить файл robots.txt для WordPress и Bitrix, приведём готовые шаблоны и стратегию управления краулингом.
Зачем нужен robots.txt и как он работает
Файл robots.txt — текстовый документ в корне сайта, который указывает поисковым роботам, какие страницы можно сканировать, а какие — запрещено. Он не блокирует доступ к страницам, а лишь даёт рекомендации. Если робот игнорирует директивы, страница всё равно может попасть в индекс, но в большинстве случаев Google, Яндекс и другие поисковые системы следуют правилам.
Основные директивы:
- User-agent — указывает, для какого робота предназначены правила (например, Googlebot, Yandex, * — для всех).
- Disallow — запрещает сканирование указанных URL или папок.
- Allow — разрешает сканирование, даже если родительская директория запрещена.
- Sitemap — указывает путь к карте сайта (XML).
- Clean-param — исключает дубли страниц с параметрами (например, сортировка, фильтры).
- Host — указывает зеркало сайта (используется Яндексом).
Для разных CMS структура файла отличается. Рассмотрим настройку для двух популярных систем: WordPress и Bitrix.
Настройка robots.txt для WordPress
WordPress — самая распространённая CMS, но её стандартный robots.txt часто требует доработки. По умолчанию файл может отсутствовать, и его нужно создать вручную через FTP или админку.
Стандартный шаблон для WordPress
Базовый файл robots.txt для WordPress выглядит так:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /cgi-bin/ Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /readme.html Disallow: /license.txt Allow: /wp-content/uploads/ Allow: /wp-admin/admin-ajax.php Sitemap: https://site.com/sitemap.xml Host: https://site.com
Вагиз Хасанов рекомендует закрывать от индексации служебные папки: wp-admin, wp-includes, wp-content/plugins, wp-content/cache. Это снижает нагрузку на сервер и предотвращает попадание в индекс технических страниц. Папку uploads нужно разрешить, чтобы изображения индексировались — это даёт трафик из картинок Google.
Дополнительные директивы для интернет-магазинов на WordPress (WooCommerce)
Если сайт работает на WooCommerce, добавьте правила для фильтров, сортировки и корзины:
Disallow: /*?add-to-cart=* Disallow: /*?orderby=* Disallow: /*?filter_* Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /wp-login.php
Пример из кейса интернет-магазина мебели: после добавления этих правил и очистки дублей с помощью Clean-param, трафик вырос на 340% за 6 месяцев. Роботы перестали тратить бюджет на служебные страницы и сосредоточились на товарных карточках.
Проверка robots.txt в WordPress
Чтобы проверить, как видит файл поисковый робот, используйте:
- Инструмент «Проверка robots.txt» в Google Search Console.
- Аналогичный инструмент в Яндекс.Вебмастере.
- Прямой запрос: https://site.com/robots.txt
Если файл не открывается, создайте его через FTP в корне сайта (папка public_html или www). В WordPress можно использовать плагины Yoast SEO, Rank Math или All in One SEO — они генерируют robots.txt автоматически, но часто добавляют лишние строки. Лучше настроить вручную.
Настройка robots.txt для Bitrix
Bitrix — мощная CMS для крупных проектов, но её структура генерирует много дублей: страницы с сортировкой, фильтрами, постраничной навигацией. Без правильного robots.txt индексация может выйти из-под контроля.
Стандартный шаблон для Bitrix
User-agent: * Disallow: /bitrix/ Disallow: /local/ Disallow: /upload/ Disallow: /personal/ Disallow: /auth/ Disallow: /search/ Disallow: /index.php Disallow: /*?sort=* Disallow: /*?by=* Disallow: /*?order=* Disallow: /*?PAGEN_*=* Disallow: /*?SHOWALL_*=* Disallow: /*?print=* Disallow: /*?action=* Allow: /upload/iblock/ Allow: /bitrix/js/ Allow: /bitrix/css/ Sitemap: https://site.com/sitemap.xml Host: https://site.com
В этом шаблоне закрыты служебные директории: /bitrix/, /local/, /personal/. Папка /upload/ закрыта полностью, но разрешена подпапка /upload/iblock/ — там хранятся изображения товаров. Если закрыть upload целиком, картинки не будут индексироваться.
Директивы для интернет-магазинов на Bitrix
Для каталогов с фильтрами и сортировкой добавьте:
Disallow: /catalog/*?* Disallow: /*?arrFilter_* Disallow: /*?set_filter=* Disallow: /*?SECTION_CODE=*
Но будьте осторожны: если закрыть все URL с параметрами, могут исчезнуть страницы фильтров, которые приносят трафик. Лучше использовать Clean-param. Пример: для автосервиса мы оставили фильтры по марке и модели, но закрыли сортировку по цене и дате. Результат — +280% заявок за 6 месяцев.
Использование Clean-param в Bitrix
Директива Clean-param — мощный инструмент для борьбы с дублями. Она указывает роботу игнорировать определённые параметры URL, не создавая новые страницы. Пример:
Clean-param: sort&by&order&PAGEN_1&SHOWALL_1
Этот код говорит Яндексу и Google, что параметры sort, by, order и постраничная навигация не меняют содержимого страницы. В результате в индексе остаётся только канонический URL.
Стратегия управления краулингом
Краулинговый бюджет — количество страниц, которые поисковый робот может просканировать за один визит. Если бюджет тратится на дубли, служебные страницы или битые ссылки, важные страницы могут остаться без индексации.
Как распределить краулинг-бюджет
Основные принципы:
- Закрыть от индексации всё, что не приносит трафика: админку, корзину, личный кабинет, страницы авторизации.
- Разрешить только ценные страницы: товары, категории, статьи блога.
- Использовать Sitemap.xml, чтобы робот сразу знал, какие страницы важны.
- Проверять логи сервера: если робот сканирует 500+ страниц в день, а в индексе только 50, значит, бюджет уходит в мусор.
Вагиз Хасанов рекомендует: для сайтов с числом страниц более 10 000 обязательно настраивать приоритеты через Sitemap и ограничивать глубину сканирования через robots.txt. Например, закрыть папки /blog/page/2/ и старше, если старые статьи не обновляются.
Пример распределения для интернет-магазина мебели
| Тип страниц | Статус в robots.txt | Причина |
|---|---|---|
| Товарные карточки | Разрешено | Основной источник трафика |
| Категории | Разрешено | Входные точки для пользователей |
| Фильтры (популярные) | Разрешено | Приносят до 20% трафика |
| Сортировка и постраничная навигация | Закрыто + Clean-param | Создают дубли |
| Корзина и оформление заказа | Закрыто | Не нужны в индексе |
| Личный кабинет | Закрыто | Служебные страницы |
Часто задаваемые вопросы
Нужно ли закрывать от индексации CSS и JS файлы?
Раньше это было необходимо, чтобы не тратить бюджет. Сейчас Google и Яндекс умеют отличать стили от контента, но для надёжности лучше разрешить их через Allow: /wp-content/themes/ (для WordPress) или Allow: /bitrix/css/ (для Bitrix). Это поможет роботу корректно отображать страницы при проверке.
Может ли robots.txt навредить продвижению?
Да, если случайно закрыть важные страницы. Например, запрет на папку /catalog/ полностью удалит из индекса все товары. Всегда проверяйте файл после изменений через инструменты вебмастеров.
Как проверить, правильно ли настроен robots.txt?
Используйте Google Search Console: раздел «Проверка robots.txt» — введите URL и посмотрите, разрешён ли он. Аналогичный инструмент есть в Яндекс.Вебмастере. Также можно открыть файл в браузере и убедиться, что он отдаётся с кодом 200.
Что делать, если в robots.txt есть ошибки?
Исправьте файл через FTP или админку, затем отправьте его на переобход в Search Console и Яндекс.Вебмастер. После этого проверьте логи: если робот продолжает сканировать запрещённые страницы, возможно, файл кэшируется — удалите кэш на сервере.
Нужно ли указывать Host для Google?
Директива Host используется только Яндексом. Для Google достаточно указать Sitemap. Если у вас сайт на HTTPS, обязательно пропишите полный URL с https:// — это ускорит индексацию.
Заключение
Правильная настройка robots.txt — база SEO, которую нельзя игнорировать. Для WordPress и Bitrix шаблоны отличаются, но принцип один: закрыть служебные страницы, разрешить ценные, использовать Clean-param для дублей и Sitemap для приоритетов. По нашему опыту (280+ проектов), корректировка robots.txt даёт прирост трафика в среднем на 15–30% за 2–3 месяца.
Если вы сомневаетесь в настройках или хотите получить профессиональный аудит — обращайтесь в SEO Rezult. Мы работаем в Москве и по всей России, 10 лет на рынке, руководители Вагиз Хасанов и Александр Молодцов.
Получить бесплатный SEO-аудит → seo-rezult.ru
Читайте по теме:
Структура URL и индексация →

