Skip to content
Peter Heuz edited this page Jun 3, 2015 · 1 revision
  • mysql + python werden benutzt
  • Kategorien werden gehasht und deren Vorkommen gezählt
  • hash + count --> datenbank

To do

  • Repräsentatives subset aus den dumps erzeugen (damit die algorithmen in kurzer Zeit durchlaufen können)
  • Kategorie-Paare zählen und in der db abspeichern
  • aus Kategorie-x+Kategorie-Paar-x-y die Wahrscheinlichkeit folgern, dass Kategorie x ==> Kategorie y
  • [Vorschlag Magnus vom Treffen am Mittwoch]: Über semantische Informationen die (x ==> y)-Paare entdecken - etc. etc. der Kreativität sind keine Grenzen gesetzt

Verbesserungsvorschläge und neue Ideen willkommen!

Clone this wiki locally