Парсинг сайта может отнимать немало времени, даже если вы работаете через специальные сервисы. Однако многие из них можно адаптировать под собственные задачи с помощью соответствующих настроек. Рассмотрим это на примере сервиса Screaming Frog.
Видеоинструкция
Настраиваем где будут храниться данные сканирования Screaming Frog
Первое, что нам необходимо – настроить тип хранения данных. Для этого переходим в пункт меню File (Файл) и выбираем пункт Настройки (Settings) в выпадающем списке.
В новом выпадающем списке выбираем Storage Mode (Тип хранения данных). Здесь их два:
![Настройки места хранения данных в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/1-1-1024x668.png)
- В оперативной памяти (Memory Storage). При выборе этого режима скачивание происходит быстро, и если оперативной памяти много, а места на жестком диске мало, то он вполне подойдет. Однако для работы с большим сайтом его может быть недостаточно.
![Memory Storage хранение данных Screaming Frog в ОЗУ](https://seopulses.ru/wp-content/uploads/2023/10/2-1-1024x650.png)
- На жестком диске (Database Storage). Здесь потребуется выбрать путь хранения, где будут размещаться все данные. Однако парсинг в данном случае идет медленнее, а скачиваемые файлы занимают намного больше места, чем при хранении в оперативной памяти.
![Database Storage хранение данных Screaming Frog на жестком диске](https://seopulses.ru/wp-content/uploads/2023/10/3-1-1024x644.png)
Далее возвращаемся в пункт Settings и выбираем Memory Allocation. Здесь вы можете установить количество оперативной памяти, которую система может использовать для хранения. Это пригодится, если параллельно вы работаете над чем-то еще.
Настраиваем User Agent
Теперь переходим во вкладку Configurations в верхнем меню и кликаем по пункту User-Agent. Его необходимо настроить для парсинга сайтов.
![Настройка User Agent в Screaming Frog Seo Spider](https://seopulses.ru/wp-content/uploads/2023/10/4-1-1024x671.png)
В выпадающем списке можно выбрать любого юзер-агента – к примеру, Гугл-бот для смартфонов особенно удобен. Screaming Frog в этом случае маскируется под бота, и сайт отдает всю нужную информацию без блокировки.
![Выбор User Agent в Screaming Frog Seo Spider](https://seopulses.ru/wp-content/uploads/2023/10/5-1-1024x646.png)
![Список возможных User Agent в Screaming Frog Seo Spider](https://seopulses.ru/wp-content/uploads/2023/10/7-1.png)
Настройка скорости парсинга
После настройки юзер-агента возвращаемся в Configurations и выбираем пункт Speed. Здесь можно задать до 20 потоков. Однако для не слишком мощного компьютера может быть достаточно и пяти.
![Настройка скорости парсинга в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/8-1-1024x667.png)
![Настройка количества потоков для парсинга в Screaming Frog Seo Spider](https://seopulses.ru/wp-content/uploads/2023/10/9-1-1024x646.png)
Настраиваем выборку разделов для парсинга
Далее нам может потребоваться задать настройки парсинга. Если нужен технический аудит всего сайта, делать это необязательно. Однако если в приоритете анализ каких-то определенных разделов, сузить поиск все же стоит.
Делается это через вкладку Configurations, пункт меню – Include.
![Настройки разделов и URL парсинга в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/10-1-1024x670.png)
Здесь мы можем ввести данные раздела или страницы товара, чтобы посмотреть, будет ли он попадать в парсинг. Например, вводим «/razdel1» и проверяем будет ли при этом сканироваться интересующий нас URL «https://www.example.com/razdel1/123123».
![Парсинг определенного раздела в Screming Frog](https://seopulses.ru/wp-content/uploads/2023/10/11-1-1024x644.png)
Если же URL не попадает под сканирование, то будет указана следующая проблема.
![Блокировка парсинга определенных разделов в Screming Frog](https://seopulses.ru/wp-content/uploads/2023/10/12-2-1024x642.png)
Если, напротив, требуется исключить какой-либо раздел из парсинга, действуем так же, но через пункт Exclude.
![Настройки исключений парсинга](https://seopulses.ru/wp-content/uploads/2023/10/13-1-1024x642.png)
Настраиваем Spider Crawl
На этом этапе мы выбираем тип сканирования данных. Для этого переходим в Configurations, выбираем пункт Spider и кликаем по Crawl в выпадающем списке.
![Настройки краулера в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/14-1-1024x661.png)
Далее устанавливаем флажки напротив данных, которые нам нужны и отключаем парсинг ненужных типов данных. Если сайт небольшой, эти настройки можно оставить по умолчанию – в этом случае лучше просканировать все.
![Настройки краулера и того что необходимо обходить в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/15-1024x648.png)
После этого переходим в раздел Extraction здесь же и выбираем, что именно будет сканироваться – тайтлы, дескрипшены, структурированные данные и так далее. Все ненужное можно исключить.
![Настройки типов данных которые будет сообирать краулер в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/16-1024x643.png)
Подключаем доступ к сайту через аккаунт Google
Теперь снова возвращаемся в Configurations, пункт API Access. Здесь выбираем Google Search Console. Это требуется для поиска проблемных страниц, на которые не ведет ни одна ссылка – так называемых Orphan Pages или Orphan URLs. В этом случае их можно быстро найти и сделать необходимую перелинковку.
![Окно настройки robots.txt в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/19-1024x638.png)
Настраиваем работу с robots.txt
Теперь мы еще раз переходим в меню Configuration и выбираем соответствующий пункт. Далее мы выбираем, в каком режиме работать с robots.txt:
- Ignore – если необходимо видеть весь сайт целиком.
- Respect – с участием функционала robots.txt.
- Ignore robots.txt but report status – если нужны данные о смене статуса страниц.
![Настройки robos.txt в Screaming Frog Seo Spider](https://seopulses.ru/wp-content/uploads/2023/10/18-1024x664.png)
![Окно настройки robots.txt в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/19-1024x638.png)
Сохраняем настройки как базовые в Screaming Frog
Если все указанные выше настройки требуются вам постоянно, стоит сохранить их соответствующим образом, поскольку Screaming Frog всегда открывается с базовых параметров. Для этого переходим в пункт Profile в меню Configuration и выбираем Save Current Configuration as Default («сохранить текущие настройки по умолчанию»).
![Сохранение базовых настроек в Screaming Frog](https://seopulses.ru/wp-content/uploads/2023/10/20-1024x668.png)
Здесь же вы можете создать несколько соответствующих профилей для различных задач и просто менять пакет настроек под приоритетную.
Подписывайтесь на наш канал в Яндекс.Дзен
Подписывайтесь на наш Telegram-канал
Подписывайтесь на наш Youtube-канал
Подписывайтесь на нашу группу ВКонтакте