Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет.
Пример правильного файла robots.txt для сайта на Opencart
- User-agent: *
- Disallow: /*route=account/
- Disallow: /*route=affiliate/
- Disallow: /*route=checkout/
- Disallow: /*route=product/search
- Disallow: /index.php?route=product/product*&manufacturer_id=
- Disallow: /admin
- Disallow: /catalog
- Disallow: /system
- Disallow: /*?sort=
- Disallow: /*&sort=
- Disallow: /*?order=
- Disallow: /*&order=
- Disallow: /*?limit=
- Disallow: /*&limit=
- Disallow: /*?filter=
- Disallow: /*&filter=
- Disallow: /*?filter_name=
- Disallow: /*&filter_name=
- Disallow: /*?filter_sub_category=
- Disallow: /*&filter_sub_category=
- Disallow: /*?filter_description=
- Disallow: /*&filter_description=
- Disallow: /*?tracking=
- Disallow: /*&tracking=
- Disallow: *page=*
- Disallow: *search=*
- Disallow: /cart/
- Disallow: /forgot-password/
- Disallow: /login/
- Disallow: /compare-products/
- Disallow: /add-return/
- Disallow: /vouchers/
- Host: https://seopulses.ru
- Sitemap: https://seopulses.ru/sitemap_index.xml
![Правильный файл robots.txt для сайта на Opencart](https://seopulses.ru/wp-content/uploads/2021/02/2-4.png)
Где можно найти файл robots.txt и как его создать или редактировать
Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt», примеры:
![Пример файла robots.txt](https://seopulses.ru/wp-content/uploads/2021/01/1-1024x808.png)
Как создать и редактировать robots.txt
Вручную
Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):
![Изменение файла robots.txt на сервере](https://seopulses.ru/wp-content/uploads/2021/02/1-1.png)
Далее открываем сам файл и можно его редактировать.
![Пример редактирования файла robots.txt в Opencart](https://seopulses.ru/wp-content/uploads/2021/01/3.png)
Если его нет, то достаточно создать новый файл.
![Создание нового файла в на сервере](https://seopulses.ru/wp-content/uploads/2021/02/2-1.png)
После вводим название документа и сохраняем.
![Создание нового файла robots.txt в на сервере](https://seopulses.ru/wp-content/uploads/2021/02/3-1.png)
Через модули/дополнения/плагины
Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:
- Для 1С-Битрикс;
![Пример файла robots.txt в 1С-Битрикс](https://seopulses.ru/wp-content/uploads/2021/01/4-1024x733.png)
- WordPress;
- Для Opencart;
- Webasyst.
Инструкция по работе с robots.txt
В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:
- User-agent: Yandex — для обращения к поисковому роботу Яндекса;
- User-agent: Googlebot — в случае с краулером Google;
- User-agent: YandexImages — при работе с ботом Яндекс.Картинок.
Полный список роботов Яндекс:
И Google:
Синтаксис в robots.txt
- # — отвечает за комментирование;
- * — указывает на любую последовательность символов после этого знака. По умолчанию указывается при любого правила в файле;
- $ — отменяет действие *, указывая на то что на этом элементе необходимо остановиться.
Директивы в Robots.txt
Disallow
Disallow запрещает индексацию отдельной страницы или группы (в том числе всего сайта). Чаще всего используется для того, чтобы скрыть технические страницы, динамические или временные страницы.
Пример #1
# Полностью закрывает весь сайт от индексации
User-agent: *
Disallow: /
Пример #2
# Блокирует для скачивания все страницы раздела /category1/, например, /category1/page1/ или caterogy1/page2/
Disallow: /category1/
Пример #3
# Блокирует для скачивания страницу раздела /category2/
User-agent: *
Disallow: /category1/$
Пример #4
# Дает возможность сканировать весь сайт просто оставив поле пустым
User-agent: *
Disallow:
Важно! Следует понимать, что регистр при использовании правил имеет значение, например, Disallow: /Category1/ не запрещает посещение страницы /category1/.
Allow
Директива Allow указывает на то, что роботу можно сканировать содержимое страницы/раздела, как правило, используется, когда в полностью закрытом разделе, нужно дать доступ к определенному документу.
Пример #1
# Дает возможность роботу скачать файл site.ru//feed/turbo/ несмотря на то, что скрыт раздел site.ru/feed/.
Disallow: */feed/*
Allow: /feed/turbo/
Пример #2
# разрешает скачивание файла doc.xml
# разрешает скачивание файла doc.xml
Allow: /doc.xml
Sitemap
Директива Sitemap указывает на карту сайта, которая используется в SEO для вывода списка URL, которые нужно проиндексировать в первую очередь.
Важно понимать, что в отличие от стандартных директив у нее есть особенности в записи:
- Следует указывать полный URL, когда относительный адрес использовать запрещено;
- На нее не распространяются остальные правила в файле robots.txt;
- XML-карта сайта должна иметь в URL-адресе домен сайта.
Пример
# Указывает карту сайта
Sitemap: https://serpstat.com/sitemap.xml
Clean-param
Используется когда нужно указать Яндексу (в Google она не работает), что страница с GET-параметрами (например, site.ru?param1=2¶m2=3) и метками (в том числе utm) не влияющие на содержимое сайта, не должна быть проиндексирована.
Пример #1
#для адресов вида:
www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243
www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php
Пример #2
#для адресов вида:
www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df
www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php
Подробнее о данной директиве можно прочитать здесь:
Crawl-delay
Важно! Данная директива не поддерживается в Яндексе с 22 февраля 2019 года и в Google 1 сентября 2019 года, но работает с другими роботами. Настройки скорости скачивания можно найти в Яндекс.Вебмастер и Google Search Console.
Crawl-delay указывает временной интервал в секундах, в течение которого роботу разрешается делать только 1 сканирование. Как правило, необходима лишь в случаях, когда у сайта наблюдается большая нагрузка из-за сканирования.
Пример
# Допускает скачивание страницы лишь раз в 3 секунды
Crawl-delay: 3
Как проверить работу файла robots.txt
В Яндекс.Вебмастер
В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.
![Проверка файла robots.txt в Яндекс.Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/7-1024x757.png)
Также можно скачать другие версии файла или просто ознакомиться с ними.
![Проверка версий файла robots.txt в Яндекс.Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/8.png)
Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.
В нашем случае мы проверяем эти правила.
![Файла robots.txt с директивой для отдельных страниц](https://seopulses.ru/wp-content/uploads/2021/01/9-1024x636.png)
Как видим из примера все работает нормально.
![Проверка директив для файла robots.txt в Яндекс.Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/10-1024x712.png)
![Проверка директив для файла robots.txt в Яндекс.Вебмастер для закрытия индексации](https://seopulses.ru/wp-content/uploads/2021/01/11-1024x589.png)
Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.
![Проверка закрытия от индексации в проверке ответа сервера в Яндекс](https://seopulses.ru/wp-content/uploads/2021/01/12-1024x357.png)
В Google Search Console
В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.
![Выбор сайта для проверки файла robots.txt в Google](https://seopulses.ru/wp-content/uploads/2021/01/13-1024x438.png)
Важно! Ресурсы-домены в этом случае выбирать нельзя.
Теперь мы видим:
- Сам файл;
- Кнопку, открывающую его;
- Симулятор для проверки сканирования.
![Проверка файла robots.txt в Гугл Вебмастер](https://seopulses.ru/wp-content/uploads/2021/01/14-1024x558.png)
Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».
![Проверка файла robots.txt в Google Webmaster](https://seopulses.ru/wp-content/uploads/2021/01/15-1024x499.png)
Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.
![Проверка индексации сайта в Google Search Console](https://seopulses.ru/wp-content/uploads/2021/01/16-1024x646.png)
Подписывайтесь на наш канал в Яндекс.Дзен
Подписывайтесь на наш Telegram-канал
Подписывайтесь на наш Youtube-канал
Подписывайтесь на нашу группу ВКонтакте
Нифига это уже не правильный роботс. Гуглу заблокирован доступ к шаблону, а именно — к стилям и шрифтам, его это бесит и скандалит на мобильную версию, мол, очень мелкий текст и элементы расположены близко друг к другу. Нужно добавить 2 разрешающие директивы Allow: /catalog/view/javascript/ и Allow: /catalog/view/theme/*/
Добрый день, спасибо за обратную связь, к сожалению проблема не кроется в роботсе, так как ошибок в серч консоли у сайта seopulses.ru нет, при том же robots.txt.
вот правильный роботс
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*filter
Disallow: /*?sort=
Disallow: /*?sort
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*?order
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?minprice
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*compare-products
Disallow: /*search
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchers
Disallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-login
Disallow: /*affiliates
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Allow: /catalog/view/javascript/*/
Allow: /catalog/view/theme/*/
Allow: /catalog/view/javascript/*.js*
Allow: /catalog/view/javascript/*.css*
Allow: /catalog/view/javascript/jquery/*
Allow: /catalog/view/theme/default/stylesheet/*.css*
Allow: /catalog/view/theme/theme563/stylesheet/*.css*
Allow: /image/cache/*.jpg*
Allow: /image/cache/*.png*
Allow: /image/cache/*.gif*
Allow: /image/cache/catalog/*.jpg*
Allow: /image/cache/catalog/*.png*
Allow: /catalog/view/javascript/bootstrap/js/bootstrap.min.js
Allow: /catalog/view/javascript/font-awesome/fonts/*woff*
Добрый день, спасибо за обратную связь, насколько вижу здесь добавлено посещение изображений и кэша.
Здравствуйте, Ильхом! прописанный роботс Кирилла является верным по вашему мнению, стоит его у себя прописать для ocstore ?
Добрый день, спасибо за обратную связь, лучше всего использовать стандартный описанный в статье, проблем ни с одним сайтом с ним не возникало.