Skip to content

EllBeh/Topic-Modeling_LDA-Analyse_von_ArXiv-Paper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

Topic Modeling nach Latent Dirichlet Allocation und Analyse von ArXiv-Paper (strukturierte / unstrukturierte Daten)

Dieses Notebook wurde ursprünglich im Rahmen eines Studienmoduls erstellt. Es soll demonstrieren, wie mit wenig Aufwand bereits ein akzeptables Topic Modeling mittels LDA entworfen werden kann. Beginnend mit einem Abzug von wissenschaftlichen Papern über die ArXiv API und gefolgt von einer explorativen Analyse der Daten, wird ein Topic Modeling durchgeführt, das diese Daten analysiert und einordnen soll. Hierbei werden auch die vorherige Tokenisierung und Normalisierung der Eingangsdaten erläutert und demonstriert.

Die Wahl von bestimmten Parametern und Methoden sowie die Architektur werden Stück für Stück erörtert und sollen Anfängern des ML als Einstieg dienen. Referenziert wird an entsprechender Stelle auf die jeweils zugrundeliegenden Arbeiten/Paper, welche die Methoden und Techniken darlegen (diese Laden zu einem tieferen Studium der Konzepte ein) und das Nachvollziehen erleichtern sollen. Zusätzlich wird eine explorative Datenanalyse durchgeführt, die die vorher abgezogenen Daten sukzessive analysiert.

Über kontruktive Kritik oder Hinweise bin ich sehr dankbar.

Happy coding!