Как настроить файл robots.txt для WordPress и Bitrix: инструкция, шаблоны и стратегия управления краулингом

Вагиз 8 мин. чтения

Как настроить файл robots.txt для WordPress и Bitrix: инструкция, шаблоны и стратегия управления краулингом

Файл robots.txt — первый инструмент, который встречает поискового робота на сайте. От его правильной настройки зависит, какие страницы попадут в индекс, а какие останутся за его пределами. Ошибки в этом файле могут стоить потери трафика и неправильного распределения краулингового бюджета. По нашему опыту (280+ проектов), до 40% проблем с индексацией связаны именно с некорректными директивами в robots.txt. В этой инструкции разберём, как настроить файл robots.txt для WordPress и Bitrix, приведём готовые шаблоны и стратегию управления краулингом.

Зачем нужен robots.txt и как он работает

Файл robots.txt — текстовый документ в корне сайта, который указывает поисковым роботам, какие страницы можно сканировать, а какие — запрещено. Он не блокирует доступ к страницам, а лишь даёт рекомендации. Если робот игнорирует директивы, страница всё равно может попасть в индекс, но в большинстве случаев Google, Яндекс и другие поисковые системы следуют правилам.

Основные директивы:

  • User-agent — указывает, для какого робота предназначены правила (например, Googlebot, Yandex, * — для всех).

  • Disallow — запрещает сканирование указанных URL или папок.
  • Allow — разрешает сканирование, даже если родительская директория запрещена.
  • Sitemap — указывает путь к карте сайта (XML).
  • Clean-param — исключает дубли страниц с параметрами (например, сортировка, фильтры).
  • Host — указывает зеркало сайта (используется Яндексом).

Для разных CMS структура файла отличается. Рассмотрим настройку для двух популярных систем: WordPress и Bitrix.

Настройка robots.txt для WordPress

WordPress — самая распространённая CMS, но её стандартный robots.txt часто требует доработки. По умолчанию файл может отсутствовать, и его нужно создать вручную через FTP или админку.

Стандартный шаблон для WordPress

Базовый файл robots.txt для WordPress выглядит так:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /license.txt

Allow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://site.com/sitemap.xml
Host: https://site.com

Вагиз Хасанов рекомендует закрывать от индексации служебные папки: wp-admin, wp-includes, wp-content/plugins, wp-content/cache. Это снижает нагрузку на сервер и предотвращает попадание в индекс технических страниц. Папку uploads нужно разрешить, чтобы изображения индексировались — это даёт трафик из картинок Google.

Дополнительные директивы для интернет-магазинов на WordPress (WooCommerce)

Если сайт работает на WooCommerce, добавьте правила для фильтров, сортировки и корзины:

Disallow: /*?add-to-cart=*
Disallow: /*?orderby=*
Disallow: /*?filter_*
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /wp-login.php

Пример из кейса интернет-магазина мебели: после добавления этих правил и очистки дублей с помощью Clean-param, трафик вырос на 340% за 6 месяцев. Роботы перестали тратить бюджет на служебные страницы и сосредоточились на товарных карточках.

Проверка robots.txt в WordPress

Чтобы проверить, как видит файл поисковый робот, используйте:

  • Инструмент «Проверка robots.txt» в Google Search Console.

  • Аналогичный инструмент в Яндекс.Вебмастере.
  • Прямой запрос: https://site.com/robots.txt

Если файл не открывается, создайте его через FTP в корне сайта (папка public_html или www). В WordPress можно использовать плагины Yoast SEO, Rank Math или All in One SEO — они генерируют robots.txt автоматически, но часто добавляют лишние строки. Лучше настроить вручную.

Настройка robots.txt для Bitrix

Bitrix — мощная CMS для крупных проектов, но её структура генерирует много дублей: страницы с сортировкой, фильтрами, постраничной навигацией. Без правильного robots.txt индексация может выйти из-под контроля.

Стандартный шаблон для Bitrix

User-agent: *
Disallow: /bitrix/
Disallow: /local/
Disallow: /upload/
Disallow: /personal/
Disallow: /auth/
Disallow: /search/
Disallow: /index.php
Disallow: /*?sort=*
Disallow: /*?by=*
Disallow: /*?order=*
Disallow: /*?PAGEN_*=*
Disallow: /*?SHOWALL_*=*
Disallow: /*?print=*
Disallow: /*?action=*

Allow: /upload/iblock/
Allow: /bitrix/js/
Allow: /bitrix/css/

Sitemap: https://site.com/sitemap.xml
Host: https://site.com

В этом шаблоне закрыты служебные директории: /bitrix/, /local/, /personal/. Папка /upload/ закрыта полностью, но разрешена подпапка /upload/iblock/ — там хранятся изображения товаров. Если закрыть upload целиком, картинки не будут индексироваться.

Директивы для интернет-магазинов на Bitrix

Для каталогов с фильтрами и сортировкой добавьте:

Disallow: /catalog/*?*
Disallow: /*?arrFilter_*
Disallow: /*?set_filter=*
Disallow: /*?SECTION_CODE=*

Но будьте осторожны: если закрыть все URL с параметрами, могут исчезнуть страницы фильтров, которые приносят трафик. Лучше использовать Clean-param. Пример: для автосервиса мы оставили фильтры по марке и модели, но закрыли сортировку по цене и дате. Результат — +280% заявок за 6 месяцев.

Использование Clean-param в Bitrix

Директива Clean-param — мощный инструмент для борьбы с дублями. Она указывает роботу игнорировать определённые параметры URL, не создавая новые страницы. Пример:

Clean-param: sort&by&order&PAGEN_1&SHOWALL_1

Этот код говорит Яндексу и Google, что параметры sort, by, order и постраничная навигация не меняют содержимого страницы. В результате в индексе остаётся только канонический URL.

Стратегия управления краулингом

Краулинговый бюджет — количество страниц, которые поисковый робот может просканировать за один визит. Если бюджет тратится на дубли, служебные страницы или битые ссылки, важные страницы могут остаться без индексации.

Как распределить краулинг-бюджет

Основные принципы:

  • Закрыть от индексации всё, что не приносит трафика: админку, корзину, личный кабинет, страницы авторизации.

  • Разрешить только ценные страницы: товары, категории, статьи блога.
  • Использовать Sitemap.xml, чтобы робот сразу знал, какие страницы важны.
  • Проверять логи сервера: если робот сканирует 500+ страниц в день, а в индексе только 50, значит, бюджет уходит в мусор.

Вагиз Хасанов рекомендует: для сайтов с числом страниц более 10 000 обязательно настраивать приоритеты через Sitemap и ограничивать глубину сканирования через robots.txt. Например, закрыть папки /blog/page/2/ и старше, если старые статьи не обновляются.

Пример распределения для интернет-магазина мебели

Тип страниц Статус в robots.txt Причина
Товарные карточки Разрешено Основной источник трафика
Категории Разрешено Входные точки для пользователей
Фильтры (популярные) Разрешено Приносят до 20% трафика
Сортировка и постраничная навигация Закрыто + Clean-param Создают дубли
Корзина и оформление заказа Закрыто Не нужны в индексе
Личный кабинет Закрыто Служебные страницы

Часто задаваемые вопросы

Нужно ли закрывать от индексации CSS и JS файлы?

Раньше это было необходимо, чтобы не тратить бюджет. Сейчас Google и Яндекс умеют отличать стили от контента, но для надёжности лучше разрешить их через Allow: /wp-content/themes/ (для WordPress) или Allow: /bitrix/css/ (для Bitrix). Это поможет роботу корректно отображать страницы при проверке.

Может ли robots.txt навредить продвижению?

Да, если случайно закрыть важные страницы. Например, запрет на папку /catalog/ полностью удалит из индекса все товары. Всегда проверяйте файл после изменений через инструменты вебмастеров.

Как проверить, правильно ли настроен robots.txt?

Используйте Google Search Console: раздел «Проверка robots.txt» — введите URL и посмотрите, разрешён ли он. Аналогичный инструмент есть в Яндекс.Вебмастере. Также можно открыть файл в браузере и убедиться, что он отдаётся с кодом 200.

Что делать, если в robots.txt есть ошибки?

Исправьте файл через FTP или админку, затем отправьте его на переобход в Search Console и Яндекс.Вебмастер. После этого проверьте логи: если робот продолжает сканировать запрещённые страницы, возможно, файл кэшируется — удалите кэш на сервере.

Нужно ли указывать Host для Google?

Директива Host используется только Яндексом. Для Google достаточно указать Sitemap. Если у вас сайт на HTTPS, обязательно пропишите полный URL с https:// — это ускорит индексацию.

Заключение

Правильная настройка robots.txt — база SEO, которую нельзя игнорировать. Для WordPress и Bitrix шаблоны отличаются, но принцип один: закрыть служебные страницы, разрешить ценные, использовать Clean-param для дублей и Sitemap для приоритетов. По нашему опыту (280+ проектов), корректировка robots.txt даёт прирост трафика в среднем на 15–30% за 2–3 месяца.

Если вы сомневаетесь в настройках или хотите получить профессиональный аудит — обращайтесь в SEO Rezult. Мы работаем в Москве и по всей России, 10 лет на рынке, руководители Вагиз Хасанов и Александр Молодцов.

Получить бесплатный SEO-аудит → seo-rezult.ru

Читайте по теме:

Структура URL и индексация →
Автор статьи
Александр Молодцов
Руководитель SEO Rezult · 8 лет опыта

Александр Молодцов — сооснователь SEO Rezult, SEO-стратег с 8-летним опытом

Все статьи →