Парсинг сайта habr.ru, применение моделей машинного и глубинного обучения, а также разработка сервиса.
parse_habr_Kseniia.ipynb
- разработка парсера (вариант 1)
habr_project_nmakhanova.ipynb
- разработка парсера (вариант 2)
new_parser.ipynb
- разработка парсера (вариант 3)
new_parser.py
- код парсера
Спарсенные данные загружены на диск.
Название файла: habr_{id_start}_{id_end}.csv
, где id_start
- id первой публикации в файле, id_end
- id последней публикации в файле.
Получившиеся ~170 тыс. публикаций были объединены в один датасет Habr_dataset.csv
.
Параметр | Описание |
---|---|
id | id публикации |
is_corporative | Корпоративная ли публикация |
posttype | Тип публикации |
title | Заголовок публикации |
hubs_pro | Профильные хабы, указанные в публикации (непосредственно связаны с IT). Это список из словарей, в каждом словаре содержатся следующие ключи: 'id' - id хаба, 'alias' - название хаба, 'type' - тип хаба, 'title' и 'titleHtml' - заголовок хаба, 'isProfiled' - профильный ли хаб (True). |
hubs_nopro | Непрофильные хабы, указанные в публикации. Это список из словарей, в каждом словаре содержатся следующие ключи: 'id' - id хаба, 'alias' - название хаба, 'type' - тип хаба, 'title' и 'titleHtml' - заголовок хаба, 'isProfiled' - профильный ли хаб (False). |
tags | Теги, указанные в публикации |
time_published | Дата и время публикции |
bookmarks | Количество добавлений в закладки |
comments_count | Количество комментариев |
views | Количество просмотров публикации |
votes | Финальный рейтинг публикации |
possitive_votes | Количество положительных голосов за публикацию |
negative_votes | Количество отрицательных голосов за публикацию |
reading_time | Время чтения публикации |
lang | Язык публикации |
author_username | Ник автора |
author_id | id автора |
karma | Карма автора |
karma_votes | Количество голосов за карму автора |
rating | Рейтинг автора |
text | Текст публикации |
data_description.md
- описание собранных данных
EDA.ipynb
- разведочный анализ данных
EDA.md
- выводы по разведочному анализу данных
preprocessing_data.ipynb
- предобработка данных
functions.py
- функции для предобработки
- Предсказание рейтинга статьи (
ML.ipynb
) - Предсказание хабов по текстам публикаций (
ML_hubs_prediction.ipynb
,ML_hubs_top10.ipynb
,HABR_ML_text_v2_second.ipynb
)