-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathxml2txt
executable file
·53 lines (47 loc) · 1.62 KB
/
xml2txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
#!/usr/bin/env ruby
#
# Parst die TEI/XML-Datei von Textgrid mit sämtlichen Gedichten von Arndt und
# erzeugt für jedes Gedicht eine einzelne Datei. Benannt ist die Datei nach dem
# Schema "<nnnnn> <Datum> <Autor>.txt". Falls kein Datum angegeben ist, wird
# "ohne Jahr" ergänzt. Haben mehrere Gedichte den gleichen Titel, werden sie
# konkateniert.
#
# Als Argument benötigt das Programm die TEI/XML-Datei mit den Gedichten, z.B.
# "Arndt_Gedichte.xml": ~> ./xml2txt Arnd_Gedichte.xml
# Vorher noch: ~> chmod +x xml2txt, um die Datei ausführbar zu machen.
# Außerdem: ~> gem install nokogiri, falls noch nicht installiert.
#
# Version 0.2
#
# Ramon Voges
#
# gem install nokogiri, falls nicht vorhanden
require 'nokogiri'
# Erstes Argument muss Dateiname sein
filename = ARGV.shift
# Verwendet Nokogiri und lädt die angegebene Datei
doc = Nokogiri::XML(File.open(filename))
# Struct als Bauanleitung für die Gedichte
Gedicht = Struct.new(:author, :title, :date, :stanzas)
count = 0
doc.css("TEI").each do |g|
count += 1
stanzas = String.new
gedicht = Gedicht.new
gedicht.author = g.search("author").text
gedicht.title = g.search("title").first.text
date = g.css("text body div div p[rend='zenoPC']").first
if date == nil || date.inner_html =~ /<hi/
gedicht.date ||= "ohne Datum"
else
gedicht.date = date.inner_html.gsub(".", "")
end
stanzas << g.css("lg").text.gsub(/^ +/, "")
gedicht.stanzas = stanzas
file = "#{sprintf '%05d', count} #{gedicht.date} #{gedicht.author.split(",").first}.txt"
File.open(file, "a") do |f|
f.puts gedicht.title
f.puts gedicht.date
f.puts gedicht.stanzas
end
end