Парсить сайты в Excel достаточно просто если использовать облачную версию софта Google Таблицы (Sheets/Doc), которые без труда позволяют использовать мощности поисковика для отправки запросов на нужные сайты.
Видеоинструкция
Подготовка к парсингу сайтов в Excel (Google Таблице)
Для того, чтобы начать парсить сайты потребуется в первую очередь перейти в Google Sheets, что можно сделать открыв страницу:
![Главная страница Google таблицы](https://seopulses.ru/wp-content/uploads/2020/06/2-18-1024x783.png)
Потребуется войти в Google Аккаунт, после чего нажать на «Создать» (+).
![Создание нового документа в Google Таблицах](https://seopulses.ru/wp-content/uploads/2020/06/11-3-1-1024x417.png)
Теперь можно переходить к парсингу, который можно выполнить через 2 основные функции:
- IMPORTXML. Позволяет получить практически любые данные с сайта, включая цены, наименования, картинки и многое другое;
- IMPORTHTML. Позволяет получить данные из таблиц и списков.
Однако, все эти методы работают на основе ссылок на страницы, если таблицы с URL-адресами нет, то можно ускорить этот сбор через карту сайта (Sitemap). Для этого добавляем к домену сайта конструкцию «/robots.txt». Например, «seopulses.ru/robots.txt».
Здесь открываем URL с картой сайта:
![robots.txt сайта для парсинга в Excel](https://seopulses.ru/wp-content/uploads/2020/06/4-18-1024x765.png)
Нас интересует список постов, поэтому открываем первую ссылку.
![Карта сайта для парсинга в Excel](https://seopulses.ru/wp-content/uploads/2020/06/5-15.png)
Получаем полный список из URL-адресов, который можно сохранить, кликнув правой кнопкой мыши и нажав на «Сохранить как» (в Google Chrome).
![Скачивание карты сайта для парсинга в Эксель](https://seopulses.ru/wp-content/uploads/2020/06/7-12-1024x606.png)
Теперь на компьютере сохранен файл XML, который можно открыть через текстовые редакторы, например, Sublime Text или NotePad++.
![Карта сайта в текстовом рекдакторе NotePad++](https://seopulses.ru/wp-content/uploads/2020/06/8-11-1024x840.png)
Чтобы обработать информацию корректно следует ознакомиться с инструкцией открытия XML-файлов в Excel (или создания), после чего данные будут поданы в формате таблицы.
![Список URL чтобы можно было спарсить в Excel](https://seopulses.ru/wp-content/uploads/2020/06/9-10-1024x836.png)
Все готово, можно переходить к методам парсинга.
IPMORTXML для парсинга сайтов в Excel
Синтаксис IMPORTXML в Google Таблице
Для того, чтобы использовать данную функцию потребуется в таблице написать формулу:
=IMPORTXML(Ссылка;Запрос)
![Пример использования IMPORTXML в Google Таблице](https://seopulses.ru/wp-content/uploads/2020/06/3-14-1024x263.png)
Где:
- Ссылка — URL-адрес страницы;
- Запрос – в формате XPath.
С примером можно ознакомиться в:
Примеры использования IMPORTXML в Google Doc
Парсинг названий
Для работы с парсингом через данную функцию потребуется знание XPATH и составление пути в этом формате. Сделать это можно открыв консоль разработчика. Для примера будет использоваться сайт крупного интернет-магазина и в первую очередь необходимо в Google Chrome открыть окно разработчика кликнув правой кнопкой мыли и в выпавшем меню выбрать «Посмотреть код» (сочетание клавиш CTRL+Shift+I).
![Просмотр кода страницы в Google Chrome](https://seopulses.ru/wp-content/uploads/2020/06/2-16-1024x760.png)
После этого пытаемся получить название товара, которое содержится в H1, единственным на странице, поэтому запрос должен быть:
//h1
И как следствие формула:
=IMPORTXML(A2;»//h1″)
![Пример использования IMPORTXML для парсинга H1 в Google Таблице](https://seopulses.ru/wp-content/uploads/2020/06/4-16-1024x224.png)
Важно! Запрос XPath пишется в кавычках «запрос».
Парсинг различных элементов
Если мы хотим получить баллы, то нам потребуется обратиться к элементу div с классом product-standart-bonus поэтому получаем:
//div[@class=’product-standart-bonus’]
![Пример рассмотрения структуры XPath при рассмотрении кода сайта](https://seopulses.ru/wp-content/uploads/2020/06/5-13-1024x757.png)
В этом случае первый тег div обозначает то, откуда берутся данные, когда в скобках [] уточняется его уникальность.
Для уточнения потребуется указать тип в виде @class, который может быть и @id, а после пишется = и в одинарных кавычках ‘значение’ пишется запрос.
Однако, нужное нам значение находиться глубже в теге span, поэтому добавляем /span и вводим:
//div[@class=’product-standart-bonus’]/span
В документе:
![IMPORTXML в Google Doc с запросом XPath](https://seopulses.ru/wp-content/uploads/2020/06/6-11-1024x201.png)
Парсинг цен без знаний XPath
Если нет знаний XPath и необходимо быстро получить информацию, то требуется выбрав нужный элемент в консоли разработчика кликнуть правой клавишей мыши и в меню выбрать «Copy»-«XPath». Например, при поиске запроса цены получаем:
![Копирование XPath для дальнейшего парсинга](https://seopulses.ru/wp-content/uploads/2020/06/7-10-1024x711.png)
//*[@id=»showcase»]/div/div[3]/div[2]/div[2]/div[1]/div[2]/div/div[1]
Далее используем ее вместе с IMPORTXML.
![Использование IMPORTXML в Google Sheets](https://seopulses.ru/wp-content/uploads/2020/06/8-9-1024x266.png)
Все готово цены получены.
Простые формулы с IMPORTXML в Google Sheets
Чтобы получить title страницы необходимо использовать запрос:
=IMPORTXML(A3;»//title»)
![IMPORTXML для парсинга title страницы в Google Sheets](https://seopulses.ru/wp-content/uploads/2020/06/9-9-1024x295.png)
Для вывода description стоит использовать:
=IMPORTXML(A3;»//description»)
![IMPORTXML для парсинга description страницы в Google Таблице](https://seopulses.ru/wp-content/uploads/2020/06/10-9.png)
Первый заголовок (или любой другой):
=IMPORTXML(A3;»//h1″)
![IMPORTXML для парсинга H1 страницы в Google Doc](https://seopulses.ru/wp-content/uploads/2020/06/11-9-1024x185.png)
IMPORTHTML для создания парсера веи-ресурсов в Эксель
Синтаксис IMPORTXML в Google Таблице
Для того, чтобы использовать данную функцию потребуется в таблице написать формулу:
=IMPORTXML(Ссылка;Запрос;Индекс)
![Использование IMPORTHTML с list в Google Sheets](https://seopulses.ru/wp-content/uploads/2020/06/7-11-1024x216.png)
Где:
- Ссылка — URL-адрес страницы;
- Запрос – может быть в формате «table» или «list», выгружающий таблицу и список, соответственно.
- Индекс – порядковый номер элемента.
С примерами можно ознакомиться в файле:
Пример использования IMPORTHTML в Google Doc
Парсинг таблиц
В примерах будет использоваться данная статья, перейдя на которую можно открыть консоль разработчика (в Google Chrome это можно сделать кликнув правой клавишей мыши и выбрав пункт «Посмотреть код» или же нажав на сочетание клавиш «CTRL+Shift+I»).
![Просмотр кода страницы в Google Chrome](https://seopulses.ru/wp-content/uploads/2020/06/1-15-1024x749.png)
Теперь просматриваем код таблицы, которая заключена в теге <table>.
![Поиск в коде страницы таблицы для парсинга через IMPORTHTML в Google Таблицах](https://seopulses.ru/wp-content/uploads/2020/06/2-17-1024x765.png)
Данный элемент можно будет выгрузить при помощи конструкции:
=IMPORTHTML(A2;»table»;1)
![Пример использования IMPORTHTML c table в Google Doc](https://seopulses.ru/wp-content/uploads/2020/06/3-15-1024x648.png)
- Где A2 ячейка со ссылкой;
- table позволяет получить данные с таблицы;
- 1 – номер таблицы.
Важно! Сам запрос table или list записывается в кавычках «запрос».
Парсинг списков
Получить список, заключенный в тегах <ul>…</ul> при помощи конструкции.
=IMPORTHTML(A2;»list»;1)
![Пример использования IMPORTHTML c list в Google Sheets](https://seopulses.ru/wp-content/uploads/2020/06/4-17-1024x571.png)
В данном случае речь идет о меню, которое также представлено в виде списка.
![Просмотр списка в коде сайта для использования с IMPORTHTML c list в Google Таблицах](https://seopulses.ru/wp-content/uploads/2020/06/5-14-1024x725.png)
Если использовать индекс третей таблицы, то будут получены данные с третей таблицы в меню:
![Просмотр третьего списка в коде сайта для использования с IMPORTHTML c list с индексом 3 в Google Docs](https://seopulses.ru/wp-content/uploads/2020/06/6-12-1024x711.png)
Формула:
=IMPORTHTML(A2;»list»;2)
![Просмотр третьего списка в коде сайта для использования с IMPORTHTML c list с индексом 3 в Google Docs](https://seopulses.ru/wp-content/uploads/2020/06/6-12-1024x711.png)
Все готово, данные получены.
Обратная конвертация
Чтобы превратить Google таблицу в MS Excel потребуется кликнуть на вкладку «Файл»-«Скачать»-«Microsoft Excel».
![Скачивание файла MS Excel в Google Doc](https://seopulses.ru/wp-content/uploads/2020/06/10-10-1024x470.png)
Все готово, пример можно скачать ниже.
![Сохраненный файл MS Excel из Google Sheets](https://seopulses.ru/wp-content/uploads/2020/06/11-10.png)
Пример:
Подписывайтесь на наш канал в Яндекс.Дзен
Подписывайтесь на наш Telegram-канал
Подписывайтесь на наш Youtube-канал
Подписывайтесь на нашу группу ВКонтакте
Добрый день, подскажите как спарсить первые цены объявлений в гугл таблицы и чтоб они обновлялись с
https://p2p.binance.com/ru/trade/all-payments/USDT?fiat=RUB
Попробовал все что только можно но в ячейке пишет «Н/Д»
Добрый день, спасибо за обратную связь, в данном случае лучше всего использовать парсер расположенный на сервере, так как могут быть проблемы с парсингом через бесплатные инструменты.