Skip to content

Скрапер для извлечения старого контента с уже несуществующего сайта Эха Москвы из архива web.archive.org

License

Notifications You must be signed in to change notification settings

ngitn/webarchive_echomskru

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

webarchive_echomskru

  1. script.py Скрапер для извлечения старого контента с уже несуществующего сайта Эха Москвы из архива web.archive.org
  2. html2md.py Извлекает текст непосредственного из главного контента сохраненных страниц которые сохранены script.py в папку saved_pages. Затем добавляет эти тексты в единый файл scrap_texts.md с разделителем в три пробела.

Как пользоваться

Аргументы для script.py

  • --url или -u: Откуда начинаем скрапить архив (обычно первая страница гостя на Эхо Москвы)
  • --speed или -s: Интервал в секундах от 0 до 10 для каждой страницы. Дефолтное значение 0
  • --pages или -p: Количество страниц прежде чем скрипт встанет на паузу чтобы не получать долгий бан. Дефолтное значение 10
  • --pause или -t: Пауза в секундах. Дефолтное значение 60
  • --retry или -r: Данный аргумент используется при повторном сканировании. Дело в том, что скрипт пропускает страницы для которых web.archive.org выдает ошибки (400-600 STATUS CODE). Потом скрипт помечает их в sqlite базе как skipped. Используя данный аргумент скрипт повторно пытается сохранить html страницы и при удаче помечает их как done

Аргументы для html2md.py

  • --retry или -r: Данный аргумент используется для повторного сканирования. Был необходим при разработке скрипта так как сайт Эха Москвы не соблюдал единый стандарт для верстки контент элементов и приходилось повторно добавлять селекторы для извлечения необходимого контента.

Пример использования консольных утилит:

python3 script.py --url='https://web.archive.org/web/20220301222215/https://echo.msk.ru/guests/475/' --speed=3 --pages=15 --pause=20
python3 html2md.py

About

Скрапер для извлечения старого контента с уже несуществующего сайта Эха Москвы из архива web.archive.org

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages