Для исследования были выбраны паспорта открытых финансовых данных 3 стран: Россия, Великобритания и Чили. Далее происходил процесс кластеризациии Term-Document matrix с помощью алгоритма Kmeans. Стоп слова были убраны с помощью закона Ципфа.
Результатом исследования стала новая структура данных представленная из 7 кластеров и радиальная диаграмма для каждой страны, показывающая количество слов в каждом кластере.
Прежде всего кластеризация позволила выявить новые структуры данных и сравнить эти структуры у 3 разных стран. Таким образом можно выявить отличия в сборе данных у разных стран и выявить какие данные не собираются в России.