Как достать все URL из файла Sitemap XML бесплатно и быстро?

В случаях, когда требуется быстро выгрузить список всех страниц сайта достаточно получить список URL из файла Sitemap (XML), что мы и рассмотрим в данной статье. Однако, стоит помнить, что в одном sitemap может быть до 50 тысяч URL, поэтому для больших сайтов количество скачиваемых файлов может быть тысячи и десятки тысяч, данный вариант мы также рассмотрим.

 


Метод 1: Использование онлайн-сервисов (для простых случаев)

Этот метод подходит, если сайт небольшой и не блокирует парсеры.

Найдите ссылку на Sitemap. Чтобы найти ее необходимо открыть файл robots.txt.

Получение sitemap из файла robots.txt

Открываем сервис:

Сервис для получения ссылок с sitemap

Скопируйте URL вашей карты сайта в поле ввода.

Ввод sitemap в сервис для скачивания ссылок с карты сайта

Запустите процесс, нажав на кнопку Load Sitemap.

Запуск сервиса для парсинга sitemap

Если сайт не защищен от парсинга и карта не слишком огромная, сервис выдаст список всех ссылок, который можно скачать (Export).

Скачивание URL с сервиса парсинга sitemap

Ограничения: Этот метод может не сработать, если карта сайта очень большая (сервис выдаст ошибку скачивания) или если на сайте стоит защита от ботов (блокировка по User-Agent/IP).


Метод 2: Ручной способ через Excel (если сервисы блокируются)

Этот способ выручает, когда онлайн-сервисы не могут скачать файл из-за защиты сайта или ошибок.

  1. Скачайте XML файл. Откройте нужный Sitemap в браузере (например, карту товаров sitemap_goods.xml), нажмите Ctrl+S и сохраните файл на компьютер.

Скачивание файла sitemap

  1. Подготовьте Excel.
    • Откройте Excel.
    • Зайдите в Файл -> Параметры -> Настроить ленту.

Переход в настройки Excel

Переход в параметры в Excel

    • В правом столбце поставьте галочку напротив пункта Разработчик и нажмите ОК.

Включение блока Разработчик в Excel

  1. Очистите XML файл (важный нюанс).
    • Откройте скачанный файл в текстовом редакторе (Блокнот, Notepad++, Sublime Text).

Корректировка файла XML Sitemap

    • Удалите лишние атрибуты в теге <urlset …>, оставив просто <urlset>.

Удаление лишних символов в XML файле sitemap

    • Это нужно, чтобы Excel корректно распознал структуру без ошибок схемы.
    • Сохраните изменения.
  1. Импорт в Excel.
    • Перетащите файл в Excel или откройте его через меню.

Переход sitemap в Excel

    • Выберите опцию «Открыть как XML-таблицу».

Открытие XML файла в Excel

    • Нажмите ОК.
  1. Результат. Excel преобразует файл в удобную таблицу, где в одной из колонок будут все ваши ссылки (loc).

Получение списка URL из XML файла sitemap через Excel


Метод 3: Массовый парсинг через A-Parser (для огромных сайтов)

Этот метод необходим для сайтов с десятками миллионов страниц и тысячами под-карт (sitemaps), которые вручную обрабатывать невозможно.

Этап 1: Сбор списка всех Sitemap

  1. Настройка A-Parser. Используйте редактор заданий. Выберите тип парсера Net::HTTP и использование регулярных выражений (RegEx) для поиска ссылок:

 

eJxtVN9v2jAQ/lcmC6lFY/zQ2peo2kTR0Daxwih9gjxY5JJ6dWzPdhgo4n/fnRMS
YOMh+D7ffff57uySee7e3MKCA+9YtC6ZCWsWsU0xvPuYhu+QvnfVdxSQ+wp554SH
nBvWY4ZbB5Y41uwJfBR9Xa0WiCeQ8kJ61iuZPxhA4m3hvM6X4ALMbLWI1kiRgaMQ
7jmLaSeDPQY8SL39dNt//7n7sNkMyGD15qpidFnDUyPcWn5AMPw/8ZywV+AJKTy5
klY8P8VutfKgPIuPrUy9A2tFArgtErSN1fuDBW9FELnjsiC30bD+sWMcN9RTbXNO
VeyYUb9O3E8DeHvTwaSbjbrptlKe+Q5WGv1TIaGFp2jV6jtYFaDdE0237/dUP54k
wgutuKyS0rFaIS9K/A46lUZfXJL8qdU5Qh4CAYGHk+A16wSb6l+E2J9VDItSLh30
mEOpU45CkusdnAXLvbZzQ3oQL5lWYylnsAPZugX+x0JIKso4xaBvdeD/Xeb/cByb
452nwn79saihYQnW4/xHG5Xomc5OxZAiFx5tN9GFol4NEXwDME3Nnsgt1xaaNDVz
nR3vjQFFw9G2bGxa6OIYF225BHH8UpHN64E7eRZqhZdzriY6NxLoXKqQEtviYNmO
x9jVbSCjFXgdPAkpUFZzH5nXWrrvz5VUYwWO3z0JzLGS51lryi2X8mU5O9+hQLzL
Zq6+WHvVvjAY7NV746LBwIE2Be65vi0GRjv/oX45+vtc0gXE4c40jh09QWEuI5bT
BYa94SoBLOjoGB/j5p1pnqzy7LWJyiM2+ZdbVD5UEfJADEvrsIPE8herSLYU

Запуска задачи по парсингу url из sitemap через A-Parser

  1. Входные данные. Укажите ссылку на главную карту сайта (sitemap_index.xml).
  2. Запуск. Запустите парсинг. Программа соберет ссылки на все вложенные карты сайта (например, их может быть 1000+ штук).

Задача парсинга URL из sitemap в A-Parser

  1. Сохранение. Скачайте полученный список ссылок на карты сайтов в текстовый файл (sitemap_list.txt).

Скачивание списка URL из sitemap в A-Parser

Этап 2: Извлечение ссылок на страницы

  1. Создайте новое задание. Используйте те же настройки парсера.
  2. Входные данные. В качестве источника запросов загрузите файл sitemap_list.txt, полученный на предыдущем этапе.

Перенос списка скачанных URL sitemap в отдельный файл

  1. Запуск. Парсер пройдет по каждому файлу Sitemap и соберет из них конечные ссылки на страницы.

Запуск массового парсинга тысяч файлов sitemap в A-Parser

  1. Результат. Вы получите итоговый файл (он может весить сотни мегабайт), содержащий полный список всех URL сайта (например, 5-10 миллионов ссылок).

Получение списка URL тысяч файлов sitemap XML в A-Parser

Резюме

  • Мало ссылок / нет защиты: Используйте SEOwl.
  • Средний объем / есть защита: Скачивайте файл вручную, чистите теги и открывайте через Excel (режим разработчика).
  • Миллионы ссылок: Используйте A-Parser в два этапа (сначала парсинг карт, потом парсинг ссылок из них).

Подписывайтесь на нас:

Дата публикации: 24/01/2026

Дата обновления: 25/01/2026