Что такое robots.txt и зачем он нужен вашему сайту
Файл robots.txt — это текстовый документ, который лежит в корневой папке сайта. Он даёт указания поисковым роботам (Google, Яндекс и другим), какие страницы можно сканировать, а какие — нет. Без него поисковики будут индексировать всё подряд, включая служебные разделы, дубли контента и страницы с личными данными пользователей. Это может привести к снижению позиций, перерасходу бюджета сканирования и даже к санкциям со стороны поисковых систем.
По нашему опыту (280+ проектов), правильная настройка robots.txt даёт прирост органического трафика на 15–30% уже в первые недели. Например, интернет-магазин мебели после оптимизации этого файла получил +340% трафика за 6 месяцев. А автосервис — +280% заявок. Секрет прост: мы закрыли от индексации мусорные страницы и направили роботов к нужному контенту.
Как устроен файл robots.txt: синтаксис и директивы
Файл robots.txt — это обычный текстовый файл с расширением .txt. Он состоит из блоков, каждый из которых начинается с указания User-agent — имени робота, для которого предназначены правила. Внутри блока прописываются директивы: Disallow (запрет на индексацию) и Allow (разрешение). Также используется директива Sitemap, чтобы указать путь к карте сайта.
Пример базовой структуры:
User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /admin/style.css
Sitemap: https://site.ru/sitemap.xml
Здесь мы запретили сканирование папок admin и temp, но разрешили CSS-файл в admin, чтобы робот видел стили. Карта сайта указана для ускорения индексации.
User-agent: кому адресованы правила
Директива User-agent определяет, для какого поисковика предназначен блок. Можно указать конкретного робота:
- Googlebot — для Google
- Yandex — для Яндекса
- YandexImages — для Яндекс.Картинок
- * — для всех роботов сразу
Если нужно задать разные правила для разных поисковиков, создаются отдельные блоки. Например, разрешить Яндексу сканировать каталог /blog/, а Google — нет.
Disallow и Allow: запретить или разрешить
Disallow — главная директива, указывающая путь, который робот не должен сканировать. Если написать Disallow: /, поисковик не зайдёт на сайт вообще. Allow используется для исключений: например, запретить папку /images/, но разрешить /images/logo.png.
Важно: если в одном блоке встречаются Disallow и Allow для одного пути, приоритет у Allow. Это правило работает в Google и Яндексе.
Sitemap: указываем карту сайта
Директива Sitemap сообщает роботу, где лежит XML-карта сайта. Это ускоряет обнаружение новых страниц. Рекомендуется указывать полный URL, включая протокол https:
Sitemap: https://site.ru/sitemap.xml
Можно добавить несколько карт, если сайт большой. Например, отдельно для товаров, статей и изображений.
Как создать robots.txt: пошаговая инструкция
Создать файл robots.txt можно в любом текстовом редакторе — блокноте, Notepad++ или прямо в админке сайта. Главное — сохранить его в кодировке UTF-8 без BOM. Рассмотрим процесс на примере WordPress.
Шаг 1. Открываем корневую папку
Подключитесь к серверу через FTP или файловый менеджер хостинга. Найдите папку public_html или www. Именно там должен лежать файл robots.txt. Если его нет — создайте новый.
Шаг 2. Прописываем базовые правила
Для большинства сайтов подойдёт такой шаблон:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/
Sitemap: https://site.ru/sitemap.xml
Этот набор закрывает от индексации служебные папки WordPress, а также указывает карту сайта. Если у вас интернет-магазин, добавьте:
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /?add-to-cart=
Такие страницы не должны попадать в поиск, иначе пользователи увидят пустые корзины или страницы входа.
Шаг 3. Проверяем ошибки
После создания файла обязательно проверить его на корректность. Ошибки в robots.txt могут полностью заблокировать индексацию сайта. Самые частые проблемы:
- Закрыт весь сайт:
Disallow: / - Не указана карта сайта
- Лишние пробелы или пустые строки
- Отсутствие директивы User-agent
Как проверить robots.txt: инструменты и методы
Проверка robots.txt — обязательный этап после любого изменения. Есть несколько способов увидеть, как поисковики воспринимают ваш файл.
Инструмент Google Search Console
В Google Search Console есть раздел «Проверка файла robots.txt». Введите URL сайта, и инструмент покажет, какие директивы активны и есть ли ошибка. Также можно протестировать конкретный адрес — например, узнать, запрещён ли он для сканирования.
Инструмент Яндекс.Вебмастер
В панели Яндекс.Вебмастера перейдите в «Инструменты» → «Анализ robots.txt». Система покажет, как робот Яндекса интерпретирует ваш файл, и укажет на возможные проблемы.
Ручная проверка через браузер
Просто откройте в браузере https://site.ru/robots.txt. Если файл существует, вы увидите его содержимое. Если нет — браузер покажет ошибку 404. Это быстрый способ проверить, доступен ли файл.
Онлайн-сервисы
Существуют бесплатные сервисы для проверки robots.txt, например, SEO-анализаторы. Они показывают структуру файла, находят дубли и нелогичные правила. Но доверять им на 100% не стоит — лучше использовать официальные инструменты поисковиков.
Частые ошибки в robots.txt и как их исправить
Даже опытные вебмастера иногда допускают ошибки. Разберём самые распространённые.
Ошибка 1: Disallow: / (закрыт весь сайт)
Если вы случайно написали Disallow: / в блоке для всех роботов, сайт перестанет индексироваться. Это частая ситуация при переносе сайта на новый сервер. Решение: проверьте файл и замените на Disallow: /wp-admin/ или другой запрещённый путь.
Ошибка 2: Неправильный синтаксис
Роботы чувствительны к пробелам и регистру. Например, Disallow: /Admin/ не сработает, если папка называется /admin/. Также нельзя использовать кириллицу — только латиницу и цифры.
Ошибка 3: Отсутствие директивы Sitemap
Без указания карты сайта поисковики могут не найти новые страницы неделями. Решение: добавьте Sitemap: https://site.ru/sitemap.xml в конец файла.
Ошибка 4: Конфликт правил для разных User-agent
Если вы прописали для Googlebot разрешение на папку /blog/, а для всех роботов — запрет, Google будет следовать своему блоку. Убедитесь, что правила не противоречат друг другу.
Ошибка 5: Закрытие CSS и JS файлов
Поисковые роботы используют CSS и JS для понимания структуры страницы. Если закрыть их директивой Disallow, сайт может отображаться некорректно в результатах поиска. Решение: разрешите доступ к папкам /wp-content/themes/ и /wp-content/plugins/, если они не содержат конфиденциальных данных.
Как настроить robots.txt для разных CMS
Каждая система управления контентом имеет свою структуру папок. Рассмотрим настройку для популярных CMS.
WordPress
Базовая конфигурация для WordPress включает запрет на папки ядра и плагинов:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://site.ru/sitemap.xml
Обратите внимание на разрешение для admin-ajax.php — это нужно для работы некоторых плагинов.
Интернет-магазин на OpenCart
Для OpenCart добавьте запрет на служебные страницы:
User-agent: *
Disallow: /admin/
Disallow: /catalog/
Disallow: /system/
Disallow: /image/cache/
Disallow: /index.php?route=checkout/
Disallow: /index.php?route=account/
Sitemap: https://site.ru/sitemap.xml
Сайт на 1С-Битрикс
Для Битрикс типичные запреты:
User-agent: *
Disallow: /bitrix/
Disallow: /personal/
Disallow: /upload/
Disallow: /?bitrix_include_areas=
Sitemap: https://site.ru/sitemap.xml
Примеры правильного robots.txt для разных задач
Рассмотрим несколько примеров для конкретных ситуаций.
Пример 1: Закрыть тестовый поддомен
Если у вас есть тестовый сайт на поддомене test.site.ru, пропишите для него отдельный robots.txt:
User-agent: *
Disallow: /
Это полностью заблокирует индексацию тестовой версии.
Пример 2: Разрешить только Яндекс
Если вы хотите, чтобы сайт индексировался только Яндексом, используйте:
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Первый блок разрешает всё для Яндекса, второй — запрещает для всех остальных.
Пример 3: Закрыть дубли страниц
Для интернет-магазина часто возникают дубли с параметрами сортировки. Закройте их:
User-agent: *
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Sitemap: https://site.ru/sitemap.xml
Влияние robots.txt на SEO и индексацию
Правильный файл robots.txt — это основа SEO. Он помогает поисковикам сосредоточиться на важном контенте, а не тратить время на мусор. Это особенно критично для крупных сайтов с тысячами страниц.
По нашему опыту (280+ проектов), после настройки robots.txt бюджет сканирования расходуется эффективнее. Новые товары и статьи попадают в индекс за 1–2 дня вместо недели. А закрытие дублей снижает риск фильтра за «тонкий» контент.
Вагиз Хасанов рекомендует проверять robots.txt каждый раз после обновления CMS или установки нового плагина. Часто плагины создают новые папки, которые случайно закрываются от индексации, или наоборот — открывают служебные страницы.
Часто задаваемые вопросы
Что делать, если robots.txt не работает?
Проверьте, лежит ли файл в корневой папке. Откройте в браузере https://site.ru/robots.txt. Если видите ошибку 404 — файл отсутствует. Также убедитесь, что в файле нет синтаксических ошибок. Используйте инструменты Google Search Console или Яндекс.Вебмастер для диагностики.
Можно ли закрыть от индексации весь сайт через robots.txt?
Да, достаточно написать Disallow: / в блоке для всех роботов. Но делать это нужно только временно — например, при разработке сайта. Если сайт уже проиндексирован, закрытие через robots.txt не удалит страницы из поиска. Для этого используйте мета-тег noindex или директиву X-Robots-Tag.
Как часто нужно обновлять robots.txt?
Рекомендуется проверять файл при каждом изменении структуры сайта: добавлении новых разделов, установке плагинов, смене CMS. Также стоит проверять после обновлений алгоритмов поисковиков — например, когда Google меняет правила обработки JavaScript.
Что важнее: robots.txt или sitemap.xml?
Оба файла важны, но выполняют разные задачи. robots.txt запрещает сканирование, а sitemap.xml — рекомендует страницы для индексации. Лучше использовать их вместе: в robots.txt указать карту сайта, а в sitemap — только нужные страницы.
Может ли robots.txt навредить SEO?
Да, если допустить ошибки. Например, случайно закрыть весь сайт или важные страницы. Также нельзя закрывать CSS и JS, иначе поисковики не смогут оценить вёрстку. Всегда проверяйте файл после изменений.
Получить бесплатный SEO-аудит → seo-rezult.ru
Хотите, чтобы ваш сайт получал больше трафика из поиска? Закажите бесплатный видео-аудит от SEO Rezult. Мы проверим robots.txt, структуру сайта, контент и технические ошибки. Вы получите конкретные рекомендации с примерами и цифрами. Работаем с проектами любого размера — от блогов до интернет-магазинов с тысячами товаров. Москва, 10 лет опыта, 280+ успешных проектов. Ждём вас на seo-rezult.ru!
Читайте по теме:
SEO-продвижение сайта →


