Правильный файл robots.txt для сайта на Opencart

Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет.

Пример;
Где найти;
Как создать;
Инструкция по работе;
Синтаксис;
Директивы;
Как проверить.

Пример правильного файла robots.txt для сайта на Opencart

Правильный файл robots.txt для сайта на Opencart

Где можно найти файл robots.txt и как его создать или редактировать

Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt», примеры:

https://seopulses.ru/robots.txt

Пример файла robots.txt

https://serpstat.com/robots.txt

https://netpeak.net/robots.txt

Как создать и редактировать robots.txt

Вручную

Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):

Изменение файла robots.txt на сервере

Далее открываем сам файл и можно его редактировать.

Пример редактирования файла robots.txt в Opencart

Если его нет, то достаточно создать новый файл.

Создание нового файла в на сервере

После вводим название документа и сохраняем.

Создание нового файла robots.txt в на сервере

Через модули/дополнения/плагины

Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:

Для 1С-Битрикс;

https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=139&LESSON_ID=5814

Пример файла robots.txt в 1С-Битрикс

WordPress;

https://ru.wordpress.org/plugins/pc-robotstxt/

Для Opencart;

https://opencartforum.com/files/file/5141-edit-robotstxt/

Webasyst.

https://support.webasyst.ru/shop-script/149/shop-script-robots-txt/

Инструкция по работе с robots.txt

В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:

User-agent: Yandex — для обращения к поисковому роботу Яндекса;
User-agent: Googlebot — в случае с краулером Google;
User-agent: YandexImages — при работе с ботом Яндекс.Картинок.

Полный список роботов Яндекс:

https://yandex.ru/support/webmaster/robot-workings/check-yandex-robots.html#check-yandex-robots

И Google:

https://support.google.com/webmasters/answer/1061943?hl=ru

Синтаксис в robots.txt

# — отвечает за комментирование;
* — указывает на любую последовательность символов после этого знака. По умолчанию указывается при любого правила в файле;
$ — отменяет действие *, указывая на то что на этом элементе необходимо остановиться.

Директивы в Robots.txt

Disallow

Disallow запрещает индексацию отдельной страницы или группы (в том числе всего сайта). Чаще всего используется для того, чтобы скрыть технические страницы, динамические или временные страницы.

Пример #1

# Полностью закрывает весь сайт от индексации

User-agent: *

Disallow: /

Пример #2

# Блокирует для скачивания все страницы раздела /category1/, например, /category1/page1/ или caterogy1/page2/

Disallow: /category1/

Пример #3

# Блокирует для скачивания страницу раздела /category2/

User-agent: *

Disallow: /category1/$

Пример #4

# Дает возможность сканировать весь сайт просто оставив поле пустым

User-agent: *

Disallow:

Важно! Следует понимать, что регистр при использовании правил имеет значение, например, Disallow: /Category1/ не запрещает посещение страницы /category1/.

Allow

Директива Allow указывает на то, что роботу можно сканировать содержимое страницы/раздела, как правило, используется, когда в полностью закрытом разделе, нужно дать доступ к определенному документу.

Пример #1

# Дает возможность роботу скачать файл site.ru//feed/turbo/ несмотря на то, что скрыт раздел site.ru/feed/.

Disallow: */feed/*

Allow: /feed/turbo/

Пример #2

# разрешает скачивание файла doc.xml

# разрешает скачивание файла doc.xml

Allow: /doc.xml

Sitemap

Директива Sitemap указывает на карту сайта, которая используется в SEO для вывода списка URL, которые нужно проиндексировать в первую очередь.

Важно понимать, что в отличие от стандартных директив у нее есть особенности в записи:

Следует указывать полный URL, когда относительный адрес использовать запрещено;
На нее не распространяются остальные правила в файле robots.txt;
XML-карта сайта должна иметь в URL-адресе домен сайта.

Пример

# Указывает карту сайта

Sitemap: https://serpstat.com/sitemap.xml

Clean-param

Используется когда нужно указать Яндексу (в Google она не работает), что страница с GET-параметрами (например, site.ru?param1=2&param2=3) и метками (в том числе utm) не влияющие на содержимое сайта, не должна быть проиндексирована.

Пример #1

#для адресов вида:

www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243

www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: s /forum/showthread.php

Пример #2

#для адресов вида:

www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df

www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: sid /index.php

Подробнее о данной директиве можно прочитать здесь:

https://serpstat.com/ru/blog/obrabotka-get-parametrov-v-robotstxt-s-pomoshhju-direktivy-clean-param/

Crawl-delay

Важно! Данная директива не поддерживается в Яндексе с 22 февраля 2019 года и в Google 1 сентября 2019 года, но работает с другими роботами. Настройки скорости скачивания можно найти в Яндекс.Вебмастер и Google Search Console.

Crawl-delay указывает временной интервал в секундах, в течение которого роботу разрешается делать только 1 сканирование. Как правило, необходима лишь в случаях, когда у сайта наблюдается большая нагрузка из-за сканирования.

Пример

# Допускает скачивание страницы лишь раз в 3 секунды

Crawl-delay: 3

Как проверить работу файла robots.txt

В Яндекс.Вебмастер

В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.

Проверка файла robots.txt в Яндекс.Вебмастер

Также можно скачать другие версии файла или просто ознакомиться с ними.

Проверка версий файла robots.txt в Яндекс.Вебмастер

Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.

В нашем случае мы проверяем эти правила.

Файла robots.txt с директивой для отдельных страниц

Как видим из примера все работает нормально.

Проверка директив для файла robots.txt в Яндекс.Вебмастер

Проверка директив для файла robots.txt в Яндекс.Вебмастер для закрытия индексации

Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.

Проверка закрытия от индексации в проверке ответа сервера в Яндекс

В Google Search Console

В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.

Выбор сайта для проверки файла robots.txt в Google

Важно! Ресурсы-домены в этом случае выбирать нельзя.

Теперь мы видим:

Сам файл;
Кнопку, открывающую его;
Симулятор для проверки сканирования.

Проверка файла robots.txt в Гугл Вебмастер

Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».

Проверка файла robots.txt в Google Webmaster

Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.

Проверка индексации сайта в Google Search Console

Подписывайтесь на наш канал в Яндекс.Дзен

Подписывайтесь на наш Telegram-канал

Подписывайтесь на наш Youtube-канал

Подписывайтесь на нашу группу ВКонтакте

Вам также будет интересно

Комментарии 6

Вадим
10.06.2021 в 23:41
Нифига это уже не правильный роботс. Гуглу заблокирован доступ к шаблону, а именно — к стилям и шрифтам, его это бесит и скандалит на мобильную версию, мол, очень мелкий текст и элементы расположены близко друг к другу. Нужно добавить 2 разрешающие директивы Allow: /catalog/view/javascript/ и Allow: /catalog/view/theme/*/
Ответить
- Ильхом Чакканбаев
  26.06.2021 в 16:28
  Добрый день, спасибо за обратную связь, к сожалению проблема не кроется в роботсе, так как ошибок в серч консоли у сайта seopulses.ru нет, при том же robots.txt.
  Ответить
Kirill
07.01.2022 в 12:38
вот правильный роботс
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*filter
Disallow: /*?sort=
Disallow: /*?sort
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*?order
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?minprice
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*compare-products
Disallow: /*search
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchers
Disallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-login
Disallow: /*affiliates
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Allow: /catalog/view/javascript/*/
Allow: /catalog/view/theme/*/
Allow: /catalog/view/javascript/*.js*
Allow: /catalog/view/javascript/*.css*
Allow: /catalog/view/javascript/jquery/*
Allow: /catalog/view/theme/default/stylesheet/*.css*
Allow: /catalog/view/theme/theme563/stylesheet/*.css*
Allow: /image/cache/*.jpg*
Allow: /image/cache/*.png*
Allow: /image/cache/*.gif*
Allow: /image/cache/catalog/*.jpg*
Allow: /image/cache/catalog/*.png*
Allow: /catalog/view/javascript/bootstrap/js/bootstrap.min.js
Allow: /catalog/view/javascript/font-awesome/fonts/*woff*
Ответить
- Ильхом Чакканбаев
  09.01.2022 в 11:51
  Добрый день, спасибо за обратную связь, насколько вижу здесь добавлено посещение изображений и кэша.
  Ответить
Роман
16.01.2022 в 22:02
Здравствуйте, Ильхом! прописанный роботс Кирилла является верным по вашему мнению, стоит его у себя прописать для ocstore ?
Ответить
- Ильхом Чакканбаев
  16.01.2022 в 22:53
  Добрый день, спасибо за обратную связь, лучше всего использовать стандартный описанный в статье, проблем ни с одним сайтом с ним не возникало.
  Ответить

Добавить комментарий Отменить ответ

(6 оценок, среднее: 3,83 из 5)

Загрузка...

➤