script.py
Скрапер для извлечения старого контента с уже несуществующего сайта Эха Москвы из архива web.archive.orghtml2md.py
Извлекает текст непосредственного из главного контента сохраненных страниц которые сохраненыscript.py
в папкуsaved_pages
. Затем добавляет эти тексты в единый файлscrap_texts.md
с разделителем в три пробела.
--url
или-u
: Откуда начинаем скрапить архив (обычно первая страница гостя на Эхо Москвы)--speed
или-s
: Интервал в секундах от 0 до 10 для каждой страницы. Дефолтное значение0
--pages
или-p
: Количество страниц прежде чем скрипт встанет на паузу чтобы не получать долгий бан. Дефолтное значение10
--pause
или-t
: Пауза в секундах. Дефолтное значение60
--retry
или-r
: Данный аргумент используется при повторном сканировании. Дело в том, что скрипт пропускает страницы для которых web.archive.org выдает ошибки (400-600 STATUS CODE). Потом скрипт помечает их в sqlite базе какskipped
. Используя данный аргумент скрипт повторно пытается сохранить html страницы и при удаче помечает их какdone
--retry
или-r
: Данный аргумент используется для повторного сканирования. Был необходим при разработке скрипта так как сайт Эха Москвы не соблюдал единый стандарт для верстки контент элементов и приходилось повторно добавлять селекторы для извлечения необходимого контента.
python3 script.py --url='https://web.archive.org/web/20220301222215/https://echo.msk.ru/guests/475/' --speed=3 --pages=15 --pause=20
python3 html2md.py