Skip to content

xenahkar/HSE_habr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

67 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Определение тематики статьи на habr.ru

Парсинг сайта habr.ru, применение моделей машинного и глубинного обучения, а также разработка сервиса.

Сбор данных (/parser)

parse_habr_Kseniia.ipynb - разработка парсера (вариант 1)

habr_project_nmakhanova.ipynb - разработка парсера (вариант 2)

new_parser.ipynb - разработка парсера (вариант 3)

new_parser.py - код парсера

Описание данных

Спарсенные данные загружены на диск.

Название файла: habr_{id_start}_{id_end}.csv, где id_start - id первой публикации в файле, id_end - id последней публикации в файле.

Получившиеся ~170 тыс. публикаций были объединены в один датасет Habr_dataset.csv.

Параметр Описание
id id публикации
is_corporative Корпоративная ли публикация
posttype Тип публикации
title Заголовок публикации
hubs_pro Профильные хабы, указанные в публикации (непосредственно связаны с IT). Это список из словарей, в каждом словаре содержатся следующие ключи: 'id' - id хаба, 'alias' - название хаба, 'type' - тип хаба, 'title' и 'titleHtml' - заголовок хаба, 'isProfiled' - профильный ли хаб (True).
hubs_nopro Непрофильные хабы, указанные в публикации. Это список из словарей, в каждом словаре содержатся следующие ключи: 'id' - id хаба, 'alias' - название хаба, 'type' - тип хаба, 'title' и 'titleHtml' - заголовок хаба, 'isProfiled' - профильный ли хаб (False).
tags Теги, указанные в публикации
time_published Дата и время публикции
bookmarks Количество добавлений в закладки
comments_count Количество комментариев
views Количество просмотров публикации
votes Финальный рейтинг публикации
possitive_votes Количество положительных голосов за публикацию
negative_votes Количество отрицательных голосов за публикацию
reading_time Время чтения публикации
lang Язык публикации
author_username Ник автора
author_id id автора
karma Карма автора
karma_votes Количество голосов за карму автора
rating Рейтинг автора
text Текст публикации

Разведочный анализ данных (/EDA)

data_description.md- описание собранных данных

EDA.ipynb - разведочный анализ данных

EDA.md - выводы по разведочному анализу данных

preprocessing_data.ipynb - предобработка данных

functions.py - функции для предобработки

Применение ML-моделей (/ML)

  1. Предсказание рейтинга статьи (ML.ipynb)
  2. Предсказание хабов по текстам публикаций (ML_hubs_prediction.ipynb, ML_hubs_top10.ipynb, HABR_ML_text_v2_second.ipynb)

Команда:

Куратор:

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published