-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathindex.html
422 lines (305 loc) · 15.6 KB
/
index.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
<title>FID Romanistik 2020</title>
<link rel="stylesheet" href="dist/reset.css">
<link rel="stylesheet" href="dist/reveal.css">
<link rel="stylesheet" href="dist/theme/simple.css" id="theme">
<!-- Theme used for syntax highlighted code -->
<link rel="stylesheet" href="plugin/highlight/monokai.css" id="highlight-theme">
</head>
<body>
<div class="reveal">
<div class="slides">
<section data-markdown=""
data-separator="^\n--\n"
data-separator-vertical="^\n---\n"
data-separator-notes="^::"
data-charset="utf-8"
data-background-image="img/basics/uni-trier_icon.png"
data-background-size="70px"
data-background-position="right 10px top 10px">
<!-- ============ BEGINNING OF SLIDE CONTENT =========== -->
<textarea data-template>
# Erheben, Sammeln und Vernetzen von Metadaten: Praxisbeispiel MiMoText
<img height="60" data-src="img/basics/mimotext-logo.png">
<br/>
<hr/>
<p>Christof Schöch & Maria Hinzmann* <br/> mit Beiträgen von Katharina Dietz, Anne Klee, Johanna Konstanciak, Andreas Lüschow, Julia Röttgermann, Moritz Steffes </p>
<p><a href="https://mimotext.github.io/fid-romanistik2020">https://mimotext.github.io/fid-romanistik2020</a></p>
<p><strong><emph>"Methoden der Datenerschließung" (Seminar Élodie Ripoll) </emph> Universität Trier, 05 Mai 2022</strong></p>
<hr/>
<img height="50" data-src="img/basics/tcdh-slim.png"> <img height="50" data-src="img/basics/uni-trier.png"> <img height="50" data-src="img/basics/mwrlp.svg">
::
- Bericht aus laufendem Projekt am TCDH der Universität Trier
- Kollaboratives Projekt mit Beiträgen aus CL, Informatik, DH und LitWiss
- work in progress: alles in ständiger Bewegung
- Gefördert durch die Forschungsinitiative Rheinland-Pfalz
--
## Gliederung
1. [Einführung in 'Mining and Modeling Text'](#/2)
2. [Mining - Erheben und Sammeln von Metadaten](#/3)
3. [Modeling - Vernetzung von Metadaten](#/4)
4. [Fazit - retrospektiv und prospektiv](#/5)
::
- Kurzer Überblick über das Projekt
- Mining: Wie ermitteln wir Informationen/Metadaten aus Text?
- Modeling: Repräsentation als Voraussetzung für Vernetzung
- Mining und Modeling nicht getrennt zu denken! (Kreis, nicht Linie); Vortragschronologie entspricht keiner Chronologie des Forschungsprozesses; alle Teilprojekte greifen in ständigem 'work in progress' ineinander
- Weitergehende Motivation: erproben hier an älterer Literatur; Wünsche für die Zukunft des wiss. Publizierens.
--
## (1) Einführung in <br/>'Mining and Modeling Text'
---
### MiMoText: Überblick
<a href="img/mimotext-overview.png"><img height="450" data-src="img/mimotext-overview.png"></a>
<br/><a href="https://mimotext.uni-trier.de">https://mimotext.uni-trier.de</a>
::
- Gegenstand: französischer Roman des 18. Jahrhunderts
- Drei Informationsquellen: -> alle lassen sich als Metadaten auffassen mit einem weiten/erweiterten 'Metadaten'-Begriff (vgl. nächste Folie)
- (A) Metadaten aus Nachweissystemen (Bibliographie du genre romanesque français);
- (B) Sachinformationen aus Fachliteratur (Literaturgeschichten);
- (C) Texteigenschaften aus Primärtexten (Volltexte der Romane)
- Ziel: Informationen extrahieren (=> Metadaten i.e.S & i.w.S. erheben/sammeln), als LOD modellieren und zusammenführen (=> vernetzen)
---
### Was sind (literaturhistorisch) relevante Metadaten?
* Nachweissysteme (Metadaten i.e.S.) <!-- .element: class="fragment" data-fragment-index="1" -->
* Metadaten: Autoren, Werke, Verlage, etc.
* Keywords in der *Bibliographie...*: Setting, Themen, Protagonisten
<br/><br/>
* Primärtexte (Metadaten i.w.S.) <!-- .element: class="fragment" data-fragment-index="2" -->
* Handlungsorte
* Figurennamen
* Topics
* Anteil direkter Rede
* uvm.
<br/><br/>
* Fachliteratur (Metadaten i.w.S.) <!-- .element: class="fragment" data-fragment-index="3" -->
* Handlung, Inhalte, Themen
* Wertungen von Autor:innen und Werken
* Beziehungen zwischen Autor:innen und Werken
::
- Bezogen auf die drei Säulen des Projekts
- Vorschlag der Unterscheidung von Metadaten i.e.S./i.w.S.
- Austausch mit / Diskussion in fachwissenschaftlicher Community (Relevanzdiskussion etc.)
- Handlungsorte = Setting; Figurennamen = Protagonisten; Topics = Themen
---
### Modellierungsansatz: Linked Open Data
<img height="400" data-src="img/rdf11-primer-example-graph.jpg">
Quelle: <br/><a href="https://www.w3.org/TR/rdf11-primer/">https://www.w3.org/TR/rdf11-primer/</a>
::
---
### Modellierung als Linked Open Data (LOD)
* Linked Open Data <!-- .element: class="fragment" data-fragment-index="1" -->
* große Menge einfacher Aussagen
* Subjekt, Prädikat, Objekt (Tripel)
* Aussagen-Beispiele <!-- .element: class="fragment" data-fragment-index="2" -->
* Voltaire (Q9068) AUTHOR_OF Candide (Q215894)
* Candide PUBLICATION_DATE 1759
* Candide PUBLICATION_LOCATION Geneva (tgn:7007279)
::
--
## (2) Mining - <br/>Erheben und Sammeln von Metadaten
---
### Beispiel 1: Bibliographie du genre romanesque français
<a href="img/bgrf-Candide.png"><img height="400" src="img/bgrf-Candide.png"></img></a>
<p>Martin / Mylne / Frautschi: <em>Bibliographie<br/> du genre romanesque français, 1751-1800</em>, 1977</p>
::
---
#### Welche Metadaten enthält diese Bibliographie?
* zusammenfassende Statistik <!-- .element: class="fragment" data-fragment-index="1" -->
* ~1100 verschiedene Autor:innen
* ~2600 Einträge (Romane)
* ~58.000 Triples (ca. 22 pro Roman)
* weitere Informationen <!-- .element: class="fragment" data-fragment-index="2" -->
* ~720 Romane in der 1. Person
* ~920 in 3. Person
* 2210 Einträge mit Angaben zum Inhalt
::
- Bibliographie ist Referenzpunkt für das Projekt
- An Werke und Autoren werden nun weitere Informationen (=>Metadaten i.w.S.) "angehängt"
[Statistik-Einschränkungen: Herausforderungen der maschinellen Aufbereitung; "Romane 1./3.Person" im weiteren Sinne und die Komplexität verschiedener Zwischenformen vereinfachend]
---
### Beispiel 2: Primärliteratur (Romane)
* Pilotkorpus: 130 französische Romane (1750-1800) <!-- .element: class="fragment" data-fragment-index="1" -->
* Kodierung: in XML-TEI, mit Metadaten, nach ELTeC-Schema <!-- .element: class="fragment" data-fragment-index="2" -->
* Analyse: Topic Modeling zur Identifikation von Themen <!-- .element: class="fragment" data-fragment-index="3" -->
::
---
#### Das "roman18"-Korpus
<img height="400" src="img/roman18.jpg"></img>
<br/><p>Collection de romans français du dix-huitième siècle (1750-1800) /<br/>Collection of Eighteenth-Century French Novels (1750-1800)</p>
::
- im Sinne der FAIR-Prinzipien: auf Zenodo mit einem DOI für Persistenz (regelmäßige releases); fortlaufend Aktualisierungen auf Github
---
#### Topic Modeling - Erste Ergebnisse
<a href="img/pilot_mod200_fr_10_500_expStop.html"><img height="500" src="img/pyldavis.png"></img></a>
::
---
#### Zwei "major topics"
<br/>
"monarchy" "love"
<br/><img height="250" src="img/topic_002.png"></img> <img height="250" src="img/topic_009.png"></img>
---
#### Abgeleitete Aussagen ('statements')
* Candide IS_ABOUT "monarchie"
* Clarice IS_ABOUT "amour"
::
- einfache, erstmal oberflächliche statements
- Topics sind ein Weg, das Themen zu definieren, also wovon ein Werk handelt; "what it IS_ABOUT"
- hervorzuheben: die Labels kommen aus einem kontrollierten Vokabular;
---
### Beispiel 3: Sekundärliteratur (literaturwiss. Fachtexte)
3 Elemente für Extraktion von Aussagen aus Sekundärliteratur:
* Annotationsguidelines (basierend auf Datenmodell) <!-- .element: class="fragment" data-fragment-index="1" -->
* manuelle Annotation: Generierung von Traingsdaten (in INCEpTION) <!-- .element: class="fragment" data-fragment-index="2" -->
* Training: Machine Learning (in Python) <!-- .element: class="fragment" data-fragment-index="3" -->
::
---
#### Annotationen auf 'Named Entity'-Layer
<a href="img/inception_Candide-disambiguation.png"><img height="350" src="img/inception_Candide-disambiguation.png"></img></a>
* Annotationen von Autoren und Werken (Entitäten -> Subjekt-/ObjektPosition in Aussagen)
* Disambiguierung von Entitäten über Knowledgebase-Anbindung (hier: Wikidata)
::
---
#### Annotation auf 'Predicate'/Relation-Layer
<a href="img/inception_genre.png"><img height="300" src="img/inception_genre.png"></img></a>
* "hasGenre" als Property bzw. Prädikat
* Subjekt verknüpft mit Wikidata-Identifier für "Bélisaire" (Q5005038)
* Objekt verknüpft mit Wikidata-Identifier für "novel" (Q8261)
::
--
## (3) Modellierung - Vernetzung von Metadaten
---
#### Willard McCarty, *Humanities Computing*, 2005
<img height="250" data-src="img/mccarty.jpg">
> "recursive modeling": </br> Modellierung als ein iterativer Prozess
---
#### Säule 1: Bibliographie als RDF
<a href="img/bgrf-Candide-RDF.png"><img height="500" src="img/bgrf-Candide-RDF.png"></img></a>
::
---
#### Säule 2: Statements aus Topic Modeling
* Beispiel Topic Modeling <!-- .element: class="fragment" data-fragment-index="1" -->
* Subjekt: *Candide*
* Prädikat: IS_ABOUT (schema.org/about; Wikidata "main_subject")
* Objekt: Topic "philosophie"
* LOD-Statements <!-- .element: class="fragment" data-fragment-index="2" -->
* Candide IS_ABOUT 'philosophie'
* Candide IS_ABOUT 'monarchie'
::
---
#### Säule 2: Romananalysen (Topic Modeling) als LOD
<a href="img/topic-modeling-graph_ijhac.jpg"><img height="500" src="img/topic-modeling-graph_ijhac.jpg"></img></a>
::
---
#### Säule 3: Literaturgeschichtsschreibung
>Candide ist das meistgelesene Werk Voltaires und war es wohl schon zu Lebzeiten des Autors. Als es 1759 in Genf erstmals im Druck erschien, wurde es zwar sofort verboten, aber doch nur mit dem Ergebnis, daß es im gleichen Jahr noch dreizehn Neuauflagen erlebte. <br/>(Erich Köhler, Aufklärung II, 1984)
::
---
#### Säule 3: Aussagen aus Fachliteratur
* Candide PUBLICATION_DATE 1759 <!-- .element: class="fragment" data-fragment-index="1" -->
* Candide LEGAL_STATUS censored <!-- .element: class="fragment" data-fragment-index="2" -->
* Candide RECEPTION_INTENSITY high <!-- .element: class="fragment" data-fragment-index="3" -->
::
---
#### Vernetzte Metadaten als Wissensnetzwerk
<a href="img/network-of-information_ijhac.jpg"><img height="500" src="img/network-of-information_ijhac.jpg"></img></a>
::
---
#### Metadaten in der MiMoText-Wikibase
<a href="img/Wikibase_ijhac.jpg"><img height="500" src="img/Wikibase_ijhac.jpg"></img></a>
--
## (4) Fazit: (Meta-)Daten retrospektiv und prospektiv
::
- (1) retrospektiv
- die Perspektive des ganzen Projekts, weil wir ja "retrodigitalisieren"
- Und weil wir Literaturgeschichtsschreibung betreiben
- (2) prospektiv
- wie sollten Publikationen gestaltet sein, damit sie leichter "als Daten" ausgewertet werden können?
---
### Publikationen zu Daten (retrospektiv)
* Unser Ziel: "Wikidata für die Literaturgeschichte" <!-- .element: class="fragment" data-fragment-index="1" -->
* literaturhistorisches Informationssystem
* LOD-Basis, SPARQL-Endpoint, Suchmaske
* Aber mit: <!-- .element: class="fragment" data-fragment-index="2" -->
* viel spezifischerem Fokus (Romanliteratur 1750-1800)
* stark erweiterter Abdeckung (Autoren, Werke)
* stark erhöhter Aussagendichte
* systematischer Ontologie von Aussagentypen
* vielfältigen Anwendungsszenarien für die Literaturgeschichte
---
### Publikationen als Daten (prospektiv)
* Digital und Open Access <!-- .element: class="fragment" data-fragment-index="1" -->
* Publikationen als (maschinenlesbare) Daten <!-- .element: class="fragment" data-fragment-index="2" -->
* Reichhaltige Metadaten <!-- .element: class="fragment" data-fragment-index="3" -->
* Explizite, semantisch kodierte Textstruktur <!-- .element: class="fragment" data-fragment-index="4" -->
* Auszeichnung und Identifikation von Entitäten (Normdaten) <!-- .element: class="fragment" data-fragment-index="5" -->
* Kernaussagen als LOD-Statements <!-- .element: class="fragment" data-fragment-index="6" -->
* Alles in offenen Standardformaten <!-- .element: class="fragment" data-fragment-index="7" -->
::
- Im Projekt alles extrem aufwändig
- Überführung von unstrukturiertem Text in maschinenlesbare Daten
- Motivation für Änderungen im Publikationswesen
- Im Grunde sind das alles Anforderungen an das zukünftige, wissenschaftliche Publikationssystem
- Dafür brauchen wir auch wissenschaftsadäquate Software, insbesondere Schreibsoftware
- Software, die bspw. dabei unterstützt, Entitäten auszuzeichnen
- Aber auch ein Verständnis dafür bei den Kolleg:innen, dass das sinnvoll ist
- Wir hoffen, heute hierzu etwas beigetragen zu haben
---
## Vielen Dank!<br/><br/>Fragen oder Kommentare?
<br/><br/>
<br/><br/>
<hr/>
<small>
<br/>Folien: <a href="https://mimotext.github.io/fid-romanistik2020">https://mimotext.github.io/fid-romanistik2020</a>
<br/>Projekt: <a href="https://mimotext.uni-trier.de">https://mimotext.uni-trier.de</a>
<br/>Lizenz: <a href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution (CC BY)</a>, 2020
</small>
<hr/>
--
## Bonus-Folien
---
#### Beispiel-Query (Wikidata)
<a href="https://query.wikidata.org/#SELECT%20DISTINCT%20%3Fbook%20%3FbookLabel%0AWHERE%20%7B%0A%20%20%3Fbook%20wdt%3AP31%20wd%3AQ7725634%20%3B%20%20%23%20books%20that%20are%20literary%20works%0A%20%20%20%20%20%20%20%20wdt%3AP407%20wd%3AQ150%20%3B%20%20%20%20%20%20%23%20books%20written%20in%20French%0A%20%20%20%20%20%20%20%20wdt%3AP921%20wd%3AQ5891%3B%20%23main%20subject%3A%20philosophy%20%0A%20%20SERVICE%20wikibase%3Alabel%20%7B%0A%20%20%20%20bd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cfr%22%20.%0A%20%20%7D%0A%7D%20%0A"><img height="500" src="img/wikidata-query.png"></img></a>
::
---
#### Besondere Aussagetypen
* {Voltaire AUTHOR_OF Candide} SOURCE Köhler_1984 <!-- .element: class="fragment" data-fragment-index="1" -->
* {Candide LEGAL_STATUS censored} TEMPORAL_SCOPE 1759-1765 <!-- .element: class="fragment" data-fragment-index="2" -->
* Köhler_1984 MAIN_SUBJECT Voltaire; Candide; Geneva <!-- .element: class="fragment" data-fragment-index="3" -->
---
#### Kontrolliertes Vokabular
<br/><img height="200" src="img/DEL_Cover.jpg"></img> <img height="200" src="img/DEL_liste-auszug.png"></img>
* Kern bzw. Basis: domänenspezifische Ressource für themat. Konzepte (*Dictionnaire européen des Lumières.* Hrsg. von Michel Delon, PUF, Paris, 1997.)
* Erweiterung
* temporäre Dynamik: Ergänzung von Konzepten (alle 3 Infoquellen)
* Prozess der Konsolidierung (u.a. über Identifier/Normdaten)
* work in progress: https://github.com/MiMoText/vocabularies/
</textarea>
<!-- ============ END OF SLIDE CONTENT =========== -->
</section>
</div>
</div>
<script src="dist/reveal.js"></script>
<script src="plugin/notes/notes.js"></script>
<script src="plugin/markdown/markdown.js"></script>
<script src="plugin/highlight/highlight.js"></script>
<script>
// More info about initialization & config:
// - https://revealjs.com/initialization/
// - https://revealjs.com/config/
Reveal.configure({ pdfSeparateFragments: false });
Reveal.initialize({
hash: true,
progress: true,
slideNumber: true,
fragments: true,
center: false,
// Learn about plugins: https://revealjs.com/plugins/
plugins: [ RevealMarkdown, RevealHighlight, RevealNotes ]
});
</script>
</body>
</html>