Skip to content

Latest commit

 

History

History
10 lines (7 loc) · 1.18 KB

README.md

File metadata and controls

10 lines (7 loc) · 1.18 KB

Проект для хакатона Budgetapps

Для исследования были выбраны паспорта открытых финансовых данных 3 стран: Россия, Великобритания и Чили. Далее происходил процесс кластеризациии Term-Document matrix с помощью алгоритма Kmeans. Стоп слова были убраны с помощью закона Ципфа.

Результатом исследования стала новая структура данных представленная из 7 кластеров и радиальная диаграмма для каждой страны, показывающая количество слов в каждом кластере.

Прежде всего кластеризация позволила выявить новые структуры данных и сравнить эти структуры у 3 разных стран. Таким образом можно выявить отличия в сборе данных у разных стран и выявить какие данные не собираются в России.