Полное руководство по использованию файла robots.txt

структура и синтаксис файла robots.txt для управления сканированием сайта поисковыми роботами Основы SEO

Файл robots.txt — это основной инструмент, с помощью которого вы сообщаете поисковым системам, какие страницы вашего сайта можно сканировать, а какие — нет. Его базовые функции поддерживают все крупные поисковики, но некоторые из них также распознают дополнительные правила, которые помогут улучшить продвижение вашего бизнеса в интернете. В этом руководстве мы подробно разобрали все способы использования robots.txt на вашем сайте.

Предупреждаем (по хорошему)!

Любые ошибки в файле robots.txt способны серьёзно навредить сайту. Поэтому убедитесь, что вы полностью прочитали и поняли эту статью, прежде чем приступать к действиям.

Что такое файл robots.txt

Файл robots.txt — это текстовый документ, который читают поисковые системы и другие роботы. Его также называют протоколом исключения роботов. Этот файл появился как результат соглашения между первыми разработчиками поисковиков, но официально он не утверждён какой-либо организацией по стандартизации. Тем не менее все основные поисковые системы его поддерживают.

Базовый файл robots.txt может выглядеть примерно так:

User-Agent: *
Disallow:

Sitemap: https://www.example.com/sitemap_index.xml

Как работает файл robots.txt

Поисковые системы обнаруживают и индексируют сайты, перемещаясь по ссылкам. Этот процесс называется сканированием. Прежде чем посетить новую страницу на домене, робот сначала загружает файл robots.txt этого домена. Так он узнаёт, какие URL ему разрешено просматривать, а какие — нет. Понимание этого процесса важно для правильного взаимодействия с поисковыми системами.

Где разместить файл robots.txt

Файл robots.txt всегда должен находиться в корне вашего домена. Например, если ваш домен www.example.com, робот найдёт его по адресу https://www.example.com/robots.txt.

Важно, чтобы файл назывался именно robots.txt. Имя чувствительно к регистру, поэтому используйте строчные буквы, иначе файл не будет работать.

Плюсы и минусы использования robots.txt

Плюсы

Управление краулинговым бюджетом

Поисковые роботы выделяют каждому сайту определённый лимит на сканирование — количество страниц, которое они готовы просмотреть за один визит. Этот лимит зависит от авторитетности ресурса, его размера и скорости ответа сервера. Специалисты называют это краулинговым бюджетом.

Если вы считаете, что ваш сайт тратит краулинговый бюджет впустую, можно запретить роботам сканировать второстепенные разделы. Тогда они сосредоточатся на действительно важных страницах. Особенно это актуально для крупных проектов, где важна правильная оптимизация URL.

Запрет на сканирование проблемных разделов иногда полезен, особенно если сайту требуется серьёзная SEO-чистка. Вы можете сделать это самостоятельно или доверить эту задачу специалистам нашей студии. А когда всё будет исправлено — снова открыть доступ роботам.

Блокировка параметров запроса

Одна из ситуаций, где краулинговый бюджет особенно важен — это сайты с множеством параметров фильтрации. Например, у вас есть интернет-магазин, где товары можно сортировать по цвету, размеру, цене и другим характеристикам. Комбинации параметров создают огромное количество URL, и все они могут быть просканированы. Блокировка таких параметров в robots.txt поможет направить роботов только на основные страницы и избежать создания ловушек для ботов.

Минусы

Нельзя удалить страницу из выдачи

С помощью robots.txt вы можете запретить сканирование, но не индексацию страницы. Если на страницу ведут внешние ссылки, поисковик всё равно может включить её в выдачу. В результатах поиска такой URL будет отображаться с пометкой, что его описание недоступно.

Чтобы надёжно скрыть страницу из поиска, используйте метатег noindex. Но учтите: для его обнаружения робот должен иметь доступ к странице, поэтому не блокируйте её в robots.txt. Подробнее о метатегах мы рассказывали в статье про правильное использование мета-тегов.

Не передаётся вес ссылок

Если поисковая система не может просканировать страницу, она не передаёт ссылочный вес с неё на другие страницы. Заблокировав страницу в robots.txt, вы теряете всю ценность ссылок, которые на неё ведут и которые она содержит. О том, как правильно распределять вес ссылок, читайте в руководстве по внутренней перелинковке.

Синтаксис robots.txt

Файл robots.txt состоит из одного или нескольких блоков директив. Каждый блок начинается с указания пользовательского агента — имени конкретного поискового робота. Можно создать один блок для всех поисковиков (используя подстановочный знак *) или отдельные блоки для разных систем.

Робот всегда выбирает блок, который наиболее точно соответствует его имени.

Пример структуры файла:

User-agent: * 
Disallow: / 

User-agent: Googlebot 
Disallow: 

User-agent: bingbot 
Disallow: /not-for-bing/

Директивы Allow и Disallow не чувствительны к регистру, поэтому их можно писать и строчными, и заглавными. А вот значения путей к файлам и папкам — чувствительны: /photo/ и /Photo/ будут восприняты как разные адреса. Для удобства чтения мы рекомендуем писать директивы с большой буквы.

Директива User-agent

Эта директива указывает, к какому роботу относится блок правил. Например, для основного робота Google используется строка User-agent: Googlebot.

У большинства поисковых систем есть несколько роботов: для обычного индекса, для изображений, видео, новостей и так далее.

Роботы всегда выбирают самый конкретный блок. Если у вас есть правила для *, для Googlebot и для Googlebot-News, то робот Googlebot-Video будет следовать правилам для Googlebot, а Googlebot-News — своим собственным.

Основные пользовательские агенты

Поисковая система Тип Пользовательский агент
Google Основной Googlebot
Google Изображения Googlebot-Image
Google Мобильный Googlebot-Mobile
Google Новости Googlebot-News
Google Видео Googlebot-Video
Яндекс Основной Yandex
Bing Основной bingbot

Директива Disallow

Директива Disallow указывает, какие разделы сайта роботу сканировать запрещено. Можно использовать несколько таких строк. Пустая директива Disallow: означает, что запретов нет, и робот может сканировать всё.

Примеры:

# Запрет для всех роботов
User-agent: * 
Disallow: /

# Разрешить всё для всех роботов
User-agent: * 
Disallow:

# Запретить Google сканировать папку /Photo
User-agent: Googlebot 
Disallow: /Photo

Важно помнить о регистре: запрет /Photo не помешает сканированию /photo. Кроме того, этот запрет также закроет доступ к любым URL, содержащим /Photo, например /Photography/.

Использование подстановочных знаков

Официально стандарт robots.txt не поддерживает регулярные выражения, но все основные поисковики понимают подстановочные знаки. Например, символ * заменяет любую последовательность символов:

Disallow: /*.php 
Disallow: /images/*.jpg

Некоторые системы, включая Google, понимают и более сложные конструкции. Например, символ $ означает конец URL:

Disallow: /*.php$

Такая директива запретит сканирование /index.php, но разрешит /index.php?p=1. Используйте это с осторожностью — легко ошибиться и открыть доступ к нежелательным страницам.

Нестандартные директивы

Allow

Директива Allow позволяет разрешить доступ к конкретным файлам внутри запрещённой папки. Например:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Без Allow пришлось бы перечислять все исключения через Disallow, что крайне неудобно.

Crawl-delay

Директива Crawl-delay задаёт минимальный интервал между запросами робота (в секундах). Она работает не со всеми поисковиками — например, Google и Яндекс её игнорируют. Пример:

crawl-delay: 10

С такой задержкой робот сможет сканировать не более 8640 страниц в день. Для небольших сайтов этого достаточно, а для крупных — катастрофически мало.

Sitemap

Директива Sitemap указывает путь к XML-карте сайта. Её понимают Google, Bing и Яндекс. Пример:

Sitemap: https://www.example.com/sitemap.xml

Однако лучше отправлять карты сайта через инструменты для веб-мастеров — так вы получите больше полезной информации о состоянии индексации. Подробнее о создании и оптимизации карт сайта мы рассказывали в статье про XML-карты сайта.

Не блокируйте CSS и JS в robots.txt

С 2015 года Google настоятельно рекомендует не блокировать в robots.txt файлы CSS и JavaScript. Почему? Потому что без них поисковый робот не может правильно оценить страницу: он не видит, как она отображается, работает ли адаптивный дизайн, не перекрывают ли элементы контент. В результате качество ранжирования может снизиться. Особенно это критично для мобильного SEO, где корректное отображение играет ключевую роль.

Даже такие популярные SEO-инструменты, как Ahrefs, используют JavaScript для анализа страниц. Блокируя JS, вы мешаете работе и этих сервисов.

Современный Google стремится видеть сайт глазами реального пользователя. Он оценивает не только текст, но и оформление, интерактивность, удобство. Поэтому очень важно, чтобы робот имел доступ ко всем ресурсам, формирующим страницу. О том, как улучшить взаимодействие с пользователем, читайте в материале про юзабилити электронной коммерции.

Тестирование и исправление ошибок в Google Search Console

Google Search Console помогает находить проблемы, связанные с robots.txt. В отчёте «Статистика сканирования» можно увидеть, сколько страниц заблокировано, и какие именно ресурсы (например, CSS или JS) недоступны роботу.

Чтобы исправить ситуацию, нужно отредактировать файл robots.txt, сняв запреты на сканирование важных элементов. После внесения изменений обязательно используйте встроенный инструмент проверки robots.txt в Google Search Console. Он покажет, как робот интерпретирует ваши директивы и нет ли в них ошибок. Также рекомендуем изучить нашу статью о настройке и ошибках в robots.txt — там мы разобрали частые проблемы подробнее.

Тщательно тестируйте изменения перед публикацией! Одна неверная строчка в robots.txt может надолго скрыть ваш сайт из поиска.

Заключение

Файл robots.txt — мощный инструмент управления сканированием, но обращаться с ним нужно аккуратно. Он помогает экономить краулинговый бюджет, скрывать служебные разделы и указывать путь к карте сайта. Однако важно помнить о его ограничениях: он не убирает страницы из выдачи и не передаёт ссылочный вес. Также категорически нельзя блокировать CSS и JavaScript — это вредит SEO.

Если вы не уверены в своих силах, доверьте настройку robots.txt профессионалам. Специалисты SEO-Akademiya.by помогут настроить файл без риска для позиций сайта. А если вы только начинаете свой путь в SEO, рекомендуем изучить наше руководство по SEO — там мы собрали все базовые знания для успешного продвижения.

Часто задаваемые вопросы
Что делать, если файл robots.txt не работает как ожидалось?
Почему файл robots.txt не удаляет страницу из поисковой выдачи?
Как разместить файл robots.txt на сайте?
Можно ли использовать robots.txt для блокировки CSS и JS?
В чем разница между директивами Allow и Disallow в robots.txt?
Почему важно управлять краулинговым бюджетом?
Как работают подстановочные знаки в robots.txt?
Какие есть основные плюсы использования robots.txt?
Зачем тестировать robots.txt в Google Search Console?
Какой аспект вы считаете наиболее важным при настройке файла robots.txt для вашего сайта?
Управление краулинговым бюджетом
0%
Блокировка параметров запроса
0%
Сохранение веса ссылок
0%
Обеспечение доступа роботов к важным файлам
0%
Использование подстановочных знаков
0%
Проголосовало: 0
SEO Академия
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.