Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет.
Пример правильного файла robots.txt для сайта на WordPress
- User-agent: *
- Disallow: /cgi-bin
- Disallow: /wp-admin/
- Disallow: /wp-includes/
- Disallow: /wp-content/plugins/
- Disallow: /wp-content/cache/
- Disallow: /wp-content/themes/
- Disallow: /wp-trackback
- Disallow: /wp-feed
- Disallow: /wp-comments
- Disallow: /author/
- Disallow: */embed*
- Disallow: */wp-json*
- Disallow: */page/*
- Disallow: /*?
- Disallow: */trackback
- Disallow: */comments
- Disallow: /*.php
- Host: https://seopulses.ru
- Sitemap: https://seopulses.ru/sitemap_index.xml
![Правильный файл robots.txt для сайта на WordPress](https://seopulses.ru/wp-content/uploads/2021/02/2-3.png)
Где можно найти файл robots.txt и как его создать или редактировать
Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt», примеры:
![Пример файла robots.txt](https://seopulses.ru/wp-content/uploads/2021/01/1-1024x808.png)
Как создать и редактировать robots.txt
Вручную
Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):
![Изменение файла robots.txt на сервере](https://seopulses.ru/wp-content/uploads/2021/02/1-1.png)
Далее открываем сам файл и можно его редактировать.
![Пример редактирования файла robots.txt в Opencart](https://seopulses.ru/wp-content/uploads/2021/01/3.png)
Если его нет, то достаточно создать новый файл.
![Создание нового файла в на сервере](https://seopulses.ru/wp-content/uploads/2021/02/2-1.png)
После вводим название документа и сохраняем.
![Создание нового файла robots.txt в на сервере](https://seopulses.ru/wp-content/uploads/2021/02/3-1.png)
Через модули/дополнения/плагины
Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:
- Для 1С-Битрикс;
![Пример файла robots.txt в 1С-Битрикс](https://seopulses.ru/wp-content/uploads/2021/01/4-1024x733.png)
- WordPress;
- Для Opencart;
- Webasyst.
Инструкция по работе с robots.txt
В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:
- User-agent: Yandex — для обращения к поисковому роботу Яндекса;
- User-agent: Googlebot — в случае с краулером Google;
- User-agent: YandexImages — при работе с ботом Яндекс.Картинок.
Полный список роботов Яндекс:
И Google:
Синтаксис в robots.txt
- # — отвечает за комментирование;
- * — указывает на любую последовательность символов после этого знака. По умолчанию указывается при любого правила в файле;
- $ — отменяет действие *, указывая на то что на этом элементе необходимо остановиться.
Директивы в Robots.txt
Disallow
Disallow запрещает индексацию отдельной страницы или группы (в том числе всего сайта). Чаще всего используется для того, чтобы скрыть технические страницы, динамические или временные страницы.
Пример #1
# Полностью закрывает весь сайт от индексации
User-agent: *
Disallow: /
Пример #2
# Блокирует для скачивания все страницы раздела /category1/, например, /category1/page1/ или caterogy1/page2/
Disallow: /category1/
Пример #3
# Блокирует для скачивания страницу раздела /category2/
User-agent: *
Disallow: /category1/$
Пример #4
# Дает возможность сканировать весь сайт просто оставив поле пустым
User-agent: *
Disallow:
Важно! Следует понимать, что регистр при использовании правил имеет значение, например, Disallow: /Category1/ не запрещает посещение страницы /category1/.
Allow
Директива Allow указывает на то, что роботу можно сканировать содержимое страницы/раздела, как правило, используется, когда в полностью закрытом разделе, нужно дать доступ к определенному документу.
Пример #1
# Дает возможность роботу скачать файл site.ru//feed/turbo/ несмотря на то, что скрыт раздел site.ru/feed/.
Disallow: */feed/*
Allow: /feed/turbo/
Пример #2
# разрешает скачивание файла doc.xml
# разрешает скачивание файла doc.xml
Allow: /doc.xml
Sitemap
Директива Sitemap указывает на карту сайта, которая используется в SEO для вывода списка URL, которые нужно проиндексировать в первую очередь.
Важно понимать, что в отличие от стандартных директив у нее есть особенности в записи:
- Следует указывать полный URL, когда относительный адрес использовать запрещено;
- На нее не распространяются остальные правила в файле robots.txt;
- XML-карта сайта должна иметь в URL-адресе домен сайта.
Пример
# Указывает карту сайта
Sitemap: https://serpstat.com/sitemap.xml
Clean-param
Используется когда нужно указать Яндексу (в Google она не работает), что страница с GET-параметрами (например, site.ru?param1=2¶m2=3) и метками (в том числе utm) не влияющие на содержимое сайта, не должна быть проиндексирована.
Пример #1
#для адресов вида:
www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243
www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php
Пример #2
#для адресов вида:
www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df
www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php
Подробнее о данной директиве можно прочитать здесь:
Crawl-delay
Важно! Данная директива не поддерживается в Яндексе с 22 февраля 2019 года и в Google 1 сентября 2019 года, но работает с другими роботами. Настройки скорости скачивания можно найти в Яндекс.Вебмастер и Google Search Console.
Crawl-delay указывает временной интервал в секундах, в течение которого роботу разрешается делать только 1 сканирование. Как правило, необходима лишь в случаях, когда у сайта наблюдается большая нагрузка из-за сканирования.
Пример
# Допускает скачивание страницы лишь раз в 3 секунды
Crawl-delay: 3
Как проверить работу файла robots.txt
В Яндекс.Вебмастер
В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.
![Проверка файла robots.txt в Яндекс.Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/7-1024x757.png)
Также можно скачать другие версии файла или просто ознакомиться с ними.
![Проверка версий файла robots.txt в Яндекс.Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/8.png)
Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.
В нашем случае мы проверяем эти правила.
![Файла robots.txt с директивой для отдельных страниц](https://seopulses.ru/wp-content/uploads/2021/01/9-1024x636.png)
Как видим из примера все работает нормально.
![Проверка директив для файла robots.txt в Яндекс.Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/10-1024x712.png)
![Проверка директив для файла robots.txt в Яндекс.Вебмастер для закрытия индексации](https://seopulses.ru/wp-content/uploads/2021/01/11-1024x589.png)
Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.
![Проверка закрытия от индексации в проверке ответа сервера в Яндекс](https://seopulses.ru/wp-content/uploads/2021/01/12-1024x357.png)
В Google Search Console
В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.
![Выбор сайта для проверки файла robots.txt в Google](https://seopulses.ru/wp-content/uploads/2021/01/13-1024x438.png)
Важно! Ресурсы-домены в этом случае выбирать нельзя.
Теперь мы видим:
- Сам файл;
- Кнопку, открывающую его;
- Симулятор для проверки сканирования.
![Проверка файла robots.txt в Гугл Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/14-1024x558.png)
Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».
![Проверка файла robots.txt в Google Webmaster](https://seopulses.ru/wp-content/uploads/2021/01/15-1024x499.png)
Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.
![Проверка индексации сайта в Google Search Console](https://seopulses.ru/wp-content/uploads/2021/01/16-1024x646.png)
Подписывайтесь на наш канал в Яндекс.Дзен
Подписывайтесь на наш Telegram-канал
Подписывайтесь на наш Youtube-канал
Подписывайтесь на нашу группу ВКонтакте
Вот в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress автор утверждает о том, что если открыть uploads для всех ботов, то в индексе появляются загруженные PDF и прочие текстовые файлы. А в яндекс вебмастере, в отчете «Исключенные страницы» появляются сообщения об ошибке при индексировании картинок, мол содержимое не поддерживается. Вот и не знаю кому верить…
Добрый день, спасибо за обратную связь, Вы всегда сможете исключить ненужные файлы из выдачи при помощи robots.txt, например, все файлы pdf, напишите пожалуйста если у Вас возникнут трудности постараюсь помочь.
Благодарю за полезную информацию.
Добрый день, спасибо за обратную связь, рад, что статья помогла Вам, если у Вас появятся вопросы обязательно задавайте.