webarchive_echomskru

script.py Скрапер для извлечения старого контента с уже несуществующего сайта Эха Москвы из архива web.archive.org
html2md.py Извлекает текст непосредственного из главного контента сохраненных страниц которые сохранены script.py в папку saved_pages. Затем добавляет эти тексты в единый файл scrap_texts.md с разделителем в три пробела.

Как пользоваться

--url или -u: Откуда начинаем скрапить архив (обычно первая страница гостя на Эхо Москвы)
--speed или -s: Интервал в секундах от 0 до 10 для каждой страницы. Дефолтное значение 0
--pages или -p: Количество страниц прежде чем скрипт встанет на паузу чтобы не получать долгий бан. Дефолтное значение 10
--pause или -t: Пауза в секундах. Дефолтное значение 60
--retry или -r: Данный аргумент используется при повторном сканировании. Дело в том, что скрипт пропускает страницы для которых web.archive.org выдает ошибки (400-600 STATUS CODE). Потом скрипт помечает их в sqlite базе как skipped. Используя данный аргумент скрипт повторно пытается сохранить html страницы и при удаче помечает их как done

--retry или -r: Данный аргумент используется для повторного сканирования. Был необходим при разработке скрипта так как сайт Эха Москвы не соблюдал единый стандарт для верстки контент элементов и приходилось повторно добавлять селекторы для извлечения необходимого контента.

python3 script.py --url='https://web.archive.org/web/20220301222215/https://echo.msk.ru/guests/475/' --speed=3 --pages=15 --pause=20

python3 html2md.py

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
LICENSE		LICENSE
README.md		README.md
html2md.py		html2md.py
script.py		script.py