-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathproust.qmd
321 lines (234 loc) · 9.55 KB
/
proust.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
---
title: "Modellierung von semi-strukturierten Daten in den Digital Humanities"
subtitle: "Workshop: Remembrance of Strings Past – [https://dhtrier.quarto.pub/proust/](https://dhtrier.quarto.pub/proust/)"
author: "Christof Schöch"
date: "25. Juli 2023"
bibliography: refs.bib
csl: chicago.csl
format:
revealjs:
incremental: true
theme: [simple, custom.scss]
logo: img/uni-trier_icon.png
footer: "[CC BY](https://creativecommons.org/licenses/by/4.0/)"
---
# Übersicht
::: {.nonincremental}
1. Begriffsklärungen
2. Beispiel Personendaten
3. Beispiel bibliographische Daten
4. Fazit
:::
::: {.notes}
- Typische Praktiken der DH beim Umgang mit schwach strukturierten Daten aus den Geisteswissenschaften
- Prinzip der Modellierung, Explizierung, Anreicherung
- Anhang zweier kleiner Nebenprojekte aus den letzten Monaten
- Weiteres, ähnliches, aber auch deutlich komplexeres Projekt: Die "Satorbase" neu modellieren und implementieren
:::
# Begriffsklärungen
## Modellierung
- Eine selektive, zweckorientierte, konstruierte, explizite Repräsentation eines Gegenstands oder einer Domäne
- Drei Ebenen
- Modellierte Instanz(en)
- Konzeptuelles Modell der Domäne
- Formale Definition des Modells
- Modell von vs. Modell für (in den DH meist beides)
::: aside
Siehe: [@jannidis_2017_datenmodellierung].
:::
## Daten
- Eine Menge (mehr oder weniger explizit) modellierter Instanzen
- In digitaler Form: algorithmisch lesbar, manipulierbar, auswertbar
- Daten (Gegenstand) vs. Metadaten (Kontextualisierung der Daten)
::: aside
Siehe: [@schoch_2013_bigb].
:::
::: {.notes}
- Daten sind ohne Modellierung kaum denkbar, und auf jeden Fall kaum wirklich nutzbar
- Auch Metadaten sind modellierte Daten! "Metadatenmodell"
:::
## Grade von Strukturiertheit
- (quasi) unstrukturiert: bspw. plain text
- semi-strukturiert: bspw. XML, JSON
- (stark) strukturiert: bspw. relationale Datenbank
# Beispiel Personendaten
## Der 'Möschter-Katalog' (2008)
- Dissertation von Angela Möschter zur Geschichte der Juden in Treviso
- Mit einem Personendaten-Katalog
- Rund 200 Einträge / Personen
- Strukturiert in Informationsarten
- Mit Quellenangaben und Querverweisen
::: aside
Siehe [@moeschter_2008_judena].
:::
## Vorgehensweise
- Textvorlage in DOCX: ==[Python]==> XML-TEI (Referenzdaten)
- XML-TEI ==[Python]==> Markdown (Quarto-Basis)
- Markdown ==[Quarto]==> HTML + PDF
## XML-Beispiel
```xml
<div type="entry" xml:id="E003">
<head>Abraham q. Michaelis (Rapp) de Ancona<ref type="notecall" target="#E3-N1">[1]</ref>
</head>
<div type="infos">
<p ana="info" n="C1">1. 1425 in Treviso als Geldverleiher belegt<ref type="notecall" target="#E3-N2">[2]</ref>.
</p>
<p ana="info" n="C3">3. Sohn des <ref type="crossref" target="#E130">Michael/Jechiel (Rapp)</ref>
<hi rend="italics">de Ancona</hi> (1416 bereits verstorben) und der Bruna/Bruneta; verheiratet mit Roxeta; Vater der Bruneta, der Anna, des Jacob und des Michael; Neffe von <ref type="crossref" target="#E096">Lazarus</ref> und
<ref type="crossref" target="#E144">Moyses Rapp</ref>; außerdem lebte er 1425 zusammen mit seinem Bruder Mandulinus und seiner Schwester Caradona und deren Mann Vivantus sowie deren Sohn Tomar mit seiner Amme Dolce; und mit seiner Tante Dolce (Schwester der Bruna) und seinem<hi rend="italics">famulus</hi> Benedictus.</p>
<p ana="info" n="C4">4. Geldverleiher,<hi rend="italics">sotius</hi> des <ref type="crossref" target="#E182">Sanson <hi rend="italics">parvus</hi> q. Jacobi</ref>
</p>
<p ana="info" n="C7">7. Wohl identisch mit dem Abraham q. Jechiel<hi rend="italics">de Ancona habitator in Mestre</hi>, der 1430 in Treviso durch einen Jacob vertreten wird<ref type="notecall" target="#E3-N3">[3]</ref>.
</p>
<p ana="info" n="C8">8. Ancona</p>
</div>
<div type="notes">
<note xml:id="E3-N1"> Vgl. den Stammbaum im Anhang sowie Kap. III.4.</note>
<note xml:id="E3-N2"> Quelle 21.</note>
<note xml:id="E3-N3"> ASTv, Notarile I, b. 262, q. 1428-1435, 88v.</note>
</div>
</div>
```
## Herausforderungen
- Schwach strukturierte Vorlage
- Implizite Verweisstruktur (händische Nacharbeit im XML)
- Korrekturvorgang: XML => MD => HTML/PDF
## Ergebnis (Stand Juli 2023)
- Eine [Testversion](https://dhtrier.quarto.pub/treviso-katalog/) ist online
- Daten liegen semi-strukturiert vor
- Querverweise liegen vor, Normdaten (Orte) fehlen
- Publikation steht aus
##

##

##

# Beispiel bibliographische Daten
## Hintergrund
- Bibliographie zum 18. Jahrhundert von Benoit Melancon: *XVIIIe: Bibliographie* (seit 1992)
- Web-Formular => FileMaker-Datenbank => HTML: [mapageweb.umontreal.ca](http://www.mapageweb.umontreal.ca/melancon/biblio.tdm.html)
- Community-driven: keine systematische Abdeckung o.ä.
- Januar 2023: Publikation der Gesamtdaten 1992-2022 als CSV-Datei
::: aside
Siehe: [@melancon_2023_liberation].
:::
## Vorgehensweise
- CSV ==[Python]==> BibTeX-Dateien
- BibTeX-Dateien ==[Import]==> [Zotero](https://www.zotero.org/groups/5067408/bib18): dort Korrekturen
- Zotero ==[Export]==> u.a. Zotero RDF
- RDF ==[Python & Quarto]==> Auswertungen und Kommentare + [BIB18-Website](https://christofs.github.io/BIB18/)
## XML-Beispiel (Zotero RDF)
```xml
<bib:BookSection rdf:about="#item_194660">
<z:itemType>bookSection</z:itemType>
<dcterms:isPartOf>
<bib:Book>
<dcterms:isPartOf>
<bib:Series>
<dc:title>La République des Lettres</dc:title>
<dc:identifier>38</dc:identifier>
</bib:Series>
</dcterms:isPartOf>
<dc:identifier>ISBN 978-90-429-2196-2</dc:identifier>
</bib:Book>
</dcterms:isPartOf>
<dc:publisher>
<foaf:Organization>
<vcard:adr>
<vcard:Address>
<vcard:locality>Louvain, Paris et Walpole</vcard:locality>
</vcard:Address>
</vcard:adr>
<foaf:name>Peeters</foaf:name>
</foaf:Organization>
</dc:publisher>
<bib:authors>
<rdf:Seq>
<rdf:li>
<foaf:Person>
<foaf:surname>Ramond</foaf:surname>
<foaf:givenName>Catherine</foaf:givenName>
</foaf:Person>
</rdf:li>
</rdf:Seq>
</bib:authors>
<bib:editors>
<rdf:Seq>
<rdf:li>
<foaf:Person>
<foaf:surname>Herman</foaf:surname>
<foaf:givenName>Jan</foaf:givenName>
</foaf:Person>
</rdf:li>
<rdf:li>
<foaf:Person>
<foaf:surname>Paschoud</foaf:surname>
<foaf:givenName>Adrien</foaf:givenName>
</foaf:Person>
</rdf:li>
<rdf:li>
<foaf:Person>
<foaf:surname>Pelckmans</foaf:surname>
<foaf:givenName>Paul</foaf:givenName>
</foaf:Person>
</rdf:li>
<rdf:li>
<foaf:Person>
<foaf:surname>Rosset</foaf:surname>
<foaf:givenName>François</foaf:givenName>
</foaf:Person>
</rdf:li>
</rdf:Seq>
</bib:editors>
<dc:title>Quand le roman se met en scène : théâtralité et réflexivité au XVIIIe siècle</dc:title>
<dc:date>2010</dc:date>
<z:language>French</z:language>
<dc:description>Citation Key: ramond_2010_quand – Book: l’Assiette des fictions. Enquêtes sur l’autoréflexivité romanesque. Actes des colloques de Lausanne (mars 2007) et de Leuven (juin 2007)</dc:description>
<bib:pages>433 et suiv.</bib:pages>
</bib:BookSection>
```
## Herausforderungen
- Schwach standardisierte Ausgangsdaten (CSV)
- Insbesondere Personen-Namen:
- Grenzen zwischen Namen
- Vorname(n) vs. Nachname(n)
- Publikationstypen im Zielformat (Zotero / BibTeX): Monographie vs. Textedition vs. Sammelband = "Book"
- Keine Abstracts oder Keywords vorhanden
## Zwischenergebnisse
- Sprachen: Französisch dominiert
- Themen / Titel: Autoren, Stichworte
- Praktiken der Kollaboration: Autorschaft vs. Herausgeberschaft
##

##

## Nächste Schritte
- Weitere Korrektur der Daten in Zotero
- Updates: Zotero => BibTeX + RDF => Jupyter => HTML
- Weitere Auswertungen: Sprachen, Themen, Biases
- Anreicherung mit Normdaten (in Zotero schwierig)
# Fazit
## Positive Aspekte
- Transformation in stärker strukturierte Formate:
- zeitgemäße Publikationsform
- Suche und Auswertungen
- verbesserte Nachnutzbarkeit
- Automatisierte Pipeline
- macht Aktualisierungen / Korrekturen *relativ* einfach
## Herausforderungen
- Ausgangsdaten meist nicht ausreichend strukturiert
- Personendaten: Querverweise
- Bibliographie: Personen-Namen
- Derzeit schwache Erschließung über Normdaten
- Personendaten: in XML relativ gut machbar
- Bibliographie: in Zotero relativ schlecht machbar
- Zielformat / Datenmodell muss gut überlegt sein (XML!)
# References
::: {#refs}
:::
# Back matter
::: {.nonincremental}
* **Referenz**: Christof Schöch, "Modellierung von semi-strukturierten Daten in den Digital Humanities". *Workshop: Remembrance of Strings Past*, org. Maria Hinzmann, Matei Chihaia, Christof Schöch. Trier / TCDH, 25.-26. Juli 2023. URL: [https://dhtrier.quarto.pub/proust](https://dhtrier.quarto.pub/proust]), DOI: [10.5281/zenodo.8174226](https://doi.org/10.5281/zenodo.8174226).
* **Lizenz**: [Creative Commons Attribution 4.0 International (CC BY)](https://creativecommons.org/licenses/by/4.0/)
:::