forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathposters-058.xml
207 lines (205 loc) · 13.1 KB
/
posters-058.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-058">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Romantik im Wandel der Zeit – eine quantitative Untersuchung </title>
<author>
<name>
<surname>Hellrich</surname>
<forename>Johannes</forename>
</name>
<affiliation>Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena, Deutschland</affiliation>
<email>johannes.hellrich@uni-jena.de</email>
</author>
<author>
<name>
<surname>Hahn</surname>
<forename>Udo</forename>
</name>
<affiliation>Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena, Deutschland</affiliation>
<email>udo.hahn@uni-jena.de</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-12-23T11:53:00Z</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from a Word document </p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.17">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Poster</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>Sprachwandel</term>
<term>Diachronie</term>
<term>Romantik</term>
<term>Google Books</term>
<term>Deutsch</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Entdeckung</term>
<term>Inhaltsanalyse</term>
<term>Modellierung</term>
<term>Daten</term>
<term>Sprache</term>
<term>Literatur</term>
<term>Text</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<p>„Romantik“ und „romantisch“ bezeichnen heute Profanes, wie ein privates Abendessen in
edlem Ambiente bei Kerzenschein oder ein idyllisch gelegenes Hotel mit
Butzenglasscheiben, meinte aber ursprünglich Ästhetisches, insbesondere
Literarisches (DWB). Dieser Bedeutungswandel kann durch die automatische Analyse
eines großen Korpus' quantifiziert werden; etwa unter Verwendung des Google Books
N-Gram Korpus, das 4% aller je gedruckten Bücher enthält (Michel et al. 2011).
Methodische Grundlage für die Analyse sind Verfahren aus der Computerlinguistik
(distributionelle Semantik), mittels derer die Bedeutung von Wörtern über den für
sie typischen Kotext (also ihren direkten textuellen Kontext) approximiert wird. Ein
aktuelles und mächtiges Verfahren ist word2vec (Mikolov et al. 2013), das auf
Forschungsarbeiten zu künstlichen neuronalen Netzen basiert (LeCun et al. 2015).
Damit gewonnene Repräsentationen können sowohl synchron als auch diachron auf ihre
Ähnlichkeit hin verglichen werden, wodurch Bedeutungswandel quantifiziert werden
kann. Dies wurde bereits am Beispiel des Englischen durch Kim et al. (2014)
demonstriert, die für einen Zeitraum von 100 Jahren Wortrepräsentationen erzeugten
und verglichen. Ein Ergebnis war die Quantifizierung des Bedeutungswandels von „gay“
hin zu einer Bezeichnung für (männliche) Homosexualität. Zwischen den
word2vec-Repräsentationen einzelner Wörter sind zudem semantisch sinnvolle
arithmetische Operationen möglich (Mikolov et al. 2013). Beim Vergleich der modernen
und der historischen Bedeutung von „romantisch“ und „Romantik“ könnte somit
ermittelt werden, ob sie einander ähnlicher sind, wenn beispielsweise sexuelle
Aspekte ignoriert werden. </p>
<p>Alternative Verfahren zur Quantifizierung von Bedeutungswandel nutzen die Kookkurrenz
von Wörtern in Bi-Grammen (Gulordava / Baroni 2011), oder einen auf Nachbarwörtern
trainierten Klassifikator (Mihalcea / Nastase 2012). Dabei kann der erste Ansatz
lediglich lokale Zusammenhänge erfassen, während der zweite vordefinierte Zeiträume
erfordert, zwischen denen ein Bedeutungsunterschied gesucht werden soll. Riedl,
Steuer und Biemann (2014) entwickelten einen distributionellen Thesaurus, der für
vordefinierte Zeiträume ähnliche Wörter gruppiert. Nachteil dieser Methoden ist
wiederum die Notwendigkeit, den untersuchten Zeitraum in Abschnitte zu unterteilen.
Vorteilhaft gegenüber word2vec ist die Möglichkeit, die einzelnen Bedeutungen
polysemer Wörter getrennt zu erfassen – statt einer veränderlichen Gesamtbedeutung,
liegen Teilbedeutungen mit unterschiedlicher Frequenz vor. Eine semantisch
schwächere Form des quantitativen Zugangs, aber nützlich für spätere qualitative
Interpretationen, ist die Visualisierung von Kollokationen im Zeitverlauf (Jurish
2015).</p>
<p>Die bei unseren Untersuchungen erwarteten Ergebnisse umfassen nicht nur die
zunehmende Trivialisierung der Wörter „romantisch“ und „Romantik“ während der
letzten 200 Jahre, sondern auch eine Reflexion des deutschen Nationalismus im 19.
und 20. Jahrhundert, von dem die Epoche der Romantik instrumentalisiert wurde
(Kremer 2007: 50-58). Dem entspricht etwa die erhöhte Frequenz von „Romantik“ in
deutschen Texten der Zwischenkriegszeit und direkten Nachkriegszeit, die mit einer
Verdrängung des Bi-Gramms „romantische Liebe“ einhergeht, das dafür Ende des 20.
Jahrhunderts seine maximale Popularität erreicht. <ref type="note" target="n01" n="1">1</ref> Auch erste Ergebnisse mit einer an Kim et al. (2014) angelehnten
Untersuchung, für die ein word2vec-Modell auf dem deutschen Google Books 5-gram
Korpus trainiert wurde, entsprechen dieser Erwartung – Abbildung 1 zeigt, dass
„romantisch“ während der ersten Hälfte des 20. Jahrhunderts eine hohe Ähnlichkeit
(als Cosinus im Vektorraum) zu „Ariern“ und „Volksfeind“ hatte. </p>
<figure>
<graphic n="1001" width="15.995422222222222cm" height="7.8845833333333335cm" url="p058-image1.jpg" rend="inline"/>
<head>Wörter mit hoher Ähnlichkeit zu „romantisch“ im Zeitverlauf (hoher Cosinus entspricht hoher Ähnlichkeit).</head>
</figure>
<p>Geplante Folgearbeiten beinhalten, neben der geisteswissenschaftlichen Einordnung der
quantitativen Ergebnisse, den Vergleich über mehrere europäische Sprachen hinweg und
die Einbeziehung von Sentiment Analysis-Technologien, um die emotionale Ladung der
Wörter im Verlauf der Zeit abzubilden (Acerbi et al. 2013). </p>
<p>Die beschriebenen Arbeiten sind Teil eines Promotionsvorhabens am von der Deutschen Forschungsgemeinschaft finanzierten Graduiertenkolleg „Modell 'Romantik'“ der Friedrich-Schiller-Universität Jena.</p>
</body>
<back>
<div type="Notes">
<note xml:id="n01" n="1">
Am 24.8.2015 ermittelt über <ref
target="https://books.google.com/ngrams/"
>https://books.google.com/ngrams/</ref>.</note>
</div>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl>
<hi rend="bold">Acerbi, Alberto / Lampos, Vasileios / Garnett, Philip /
Bentley, R. A</hi> (2013): "The Expression of Emotions in 20th Century
Books", in: <hi rend="italic">PLoS ONE</hi> 8, 3: e59030. </bibl>
<bibl>
<hi rend="bold">DWB</hi>: <hi rend="italic">Deutsches Wörterbuch von Jacob
und Wilhelm Grimm</hi>. 16 Bde. in 32 Teilbänden. Leipzig 1854–1961.
Quellenverzeichnis Leipzig 1971. <ref target="http://dwb.uni-trier.de/de/"
>http://dwb.uni-trier.de/de/</ref> [letzter Zugriff 30. Juli 2015]. </bibl>
<bibl>
<hi rend="bold">Gulordava, Kristina / Baroni, Marco</hi> (2011): "A
distributional similarity approach to the detection of semantic change in
the Google Books Ngram corpus ", in: <hi rend="italic">Proceedings of the
GEMS 2011 Workshop on Geometrical Models of Natural Language Semantics @
EMNLP 2011</hi> 67–71. </bibl>
<bibl>
<hi rend="bold">Jurish, Bryan</hi> (2015): "DiaCollo: On the trail of
diachronic collocations", in: <hi rend="italic">Proceedings of the CLARIN
Annual Conference 2015</hi> 28–31. </bibl>
<bibl>
<hi rend="bold">Kim, Yoon / Chiu, Yi-I / Hanaki, Kentaro / Hegde, Darshan /
Petrov, Slav</hi> (2014): "Temporal Analysis of Language through Neural
Language Models ", in: <hi rend="italic">Proceedings of the ACL 2014
Workshop on Language Technologies and Computational Social Science</hi>
61–65. </bibl>
<bibl>
<hi rend="bold">Kremer, Detlef</hi> (2007): <hi rend="italic">Romantik</hi>.
Lehrbuch Germanistik. 3. Auflage. Stuttgart: Metzler. </bibl>
<bibl>
<hi rend="bold">LeCun, Yann / Bengio, Yoshua / Hinton, Geoffrey</hi> (2015):
"Deep learning", in: <hi rend="italic">Nature</hi> 521, 7553: 436–444. </bibl>
<bibl>
<hi rend="bold">Michel, Jean-Baptiste / Shen, Yuan K. / Aiden, Aviva P. /
Veres, Adrian / Gray, Matthew K. / The Google Books Team / Pickett,
Joseph P. / Hoiberg, Dale / Clancy, Dan / Norvig, Peter / Orwant, Jon /
Pinker, Steven / Nowak, Martin A. / Aiden, Erez L.</hi> (2011):
"Quantitative Analysis of Culture Using Millions of Digitized Books ", in:
<hi rend="italic">Science</hi> 331, 6014: 176–182. </bibl>
<bibl>
<hi rend="bold">Mihalcea, Rada / Nastase, Vivi (</hi>2012): "Word Epoch
Disambiguation: Finding How Words Change over Time", in: <hi rend="italic"
>Proceedings of the 50th Annual Meeting of the Association for
Computational Linguistics</hi> 259–263. </bibl>
<bibl>
<hi rend="bold">Mikolov, Tomas / Yih, Wen-tau / Zweig, Geoffrey</hi> (2013):
"Linguistic Regularities in Continuous Space Word Representations", in: <hi
rend="italic">Proceedings of the 2013 Conference of the North American
Chapter of the Association for Computational Linguistics</hi>. Human
Language Technologies – NAACL-HLT 2013 746–751. </bibl>
<bibl>
<hi rend="bold">Riedl, Martin / Steuer, Richard / Biemann, Chris</hi>
(2014): "Distributed Distributional Similarities of Google Books over the
Centuries ", in: <hi rend="italic">Proceedings of the 9th International
Conference on Language Resources and Evaluation (LREC 2014)</hi>
1401–1405.</bibl>
</listBibl>
</div>
</back>
</text>
</TEI>