Проект для хакатона Budgetapps

Для исследования были выбраны паспорта открытых финансовых данных 3 стран: Россия, Великобритания и Чили. Далее происходил процесс кластеризациии Term-Document matrix с помощью алгоритма Kmeans. Стоп слова были убраны с помощью закона Ципфа.

Результатом исследования стала новая структура данных представленная из 7 кластеров и радиальная диаграмма для каждой страны, показывающая количество слов в каждом кластере.

Прежде всего кластеризация позволила выявить новые структуры данных и сравнить эти структуры у 3 разных стран. Таким образом можно выявить отличия в сборе данных у разных стран и выявить какие данные не собираются в России.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
Chili-clusters.ipynb		Chili-clusters.ipynb
README.md		README.md
UK (1).csv		UK (1).csv
UK-clusters.ipynb		UK-clusters.ipynb
UK.csv		UK.csv
chile (1).csv		chile (1).csv
chile.csv		chile.csv
lsa-Copy1.ipynb		lsa-Copy1.ipynb
ru2.csv		ru2.csv
ru3 (1).csv		ru3 (1).csv
ru3.csv		ru3.csv
ru_translate.csv		ru_translate.csv
train.csv		train.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Проект для хакатона Budgetapps

About

Releases

Packages

Languages

AlexanderChaptykov/Hackathon

Folders and files

Latest commit

History

Repository files navigation

Проект для хакатона Budgetapps

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages