forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathvorträge-044.xml
281 lines (281 loc) · 19.3 KB
/
vorträge-044.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="vorträge-044">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Digitale Workflows in Langzeitprojekten am Beispiel einer Infrastruktur zur Dokumentation indigener nordeurpoäischer Sprachen (INEL)</title>
<author>
<name>
<surname>Hedeland</surname>
<forename>Hanna</forename>
</name>
<affiliation>Universität Hamburg, Deutschland</affiliation>
<email>hanna.hedeland@uni-hamburg.de</email>
</author>
<author>
<name>
<surname>Lehmberg</surname>
<forename>Timm</forename>
</name>
<affiliation>Universität Hamburg, Deutschland</affiliation>
<email>timm.lehmberg@uni-hamburg.de</email>
</author>
<author>
<name>
<surname>Wagner-Nagy</surname>
<forename>Beata</forename>
</name>
<affiliation>Universität Hamburg, Deutschland</affiliation>
<email>beata.wagner-nagy@uni-hamburg.de</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-10-04T22:02:00Z</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from a Word document </p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.14">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Vortrag</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>Best Practices</term>
<term>Sprachdokumentation</term>
<term>Workflows</term>
<term>Forschungsinfrastruktur</term>
<term>Langzeitprojekt</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Teilen</term>
<term>Umwandlung</term>
<term>Datenerkennung</term>
<term>Entdeckung</term>
<term>Sammlung</term>
<term>Aufzeichnung</term>
<term>Transkription</term>
<term>Programmierung</term>
<term>Annotieren</term>
<term>Theoretisierung</term>
<term>Bereinigung</term>
<term>Bearbeitung</term>
<term>Archivierung</term>
<term>Community-Bildung</term>
<term>Veröffentlichung</term>
<term>Kollaboration</term>
<term>Lehre</term>
<term>Projektmanagement</term>
<term>Webentwicklung</term>
<term>Organisation</term>
<term>Konservierung</term>
<term>Daten</term>
<term>Infrastruktur</term>
<term>Sprache</term>
<term>Manuskript</term>
<term>Karte</term>
<term>Metadaten</term>
<term>Methoden</term>
<term>Projekte</term>
<term>Ton</term>
<term>Standards</term>
<term>virtuelle Forschungsumgebungen</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<div type="div1" rend="DH-Heading1">
<head>Zusammenfassung</head>
<p>Gegenstand des Beitrages sind die Arbeiten zu digitalen Workflows und
infrastruktureller Einbindung im Rahmen des Langzeitprojektes <hi rend="italic"
>INEL</hi> (Grammatical Descriptions, Corpora, and Language Technology for
Indigenous Northern Eurasian Languages), das am Institut für <ref
target="http://www.slm.uni-hamburg.de/ifuu">Finnougristik und
Uralistik</ref> (IFUU) und dem <ref target="http://corpora.uni-hamburg.de"
>Hamburger Zentrum für Sprachkorpora</ref> (HZSK) der Universität Hamburg
verortet ist. Ziel des Projektes ist es, über den Zeitraum von 18 Jahren die
dringend erforderliche Erschließung der sprachlichen Ressourcen des genealogisch
diversen nordeurasischen Sprachraums (s. Abbildung 1) zu leisten. Durch den
Einsatz von State-of-the-Art-Methoden und -Werkzeugen der linguistischen
Datenaufbereitung, die bisher nur für gut erforschten Sprachen und Varietäten
zum Einsatz kamen, wird eine Lücke in diesen für die empirische
Sprachwissenschaft bisher schlecht zugänglichen Arealen der Welt nachhaltig
geschlossen. </p>
<figure>
<graphic n="1001" width="16.002cm" height="19.939cm" url="044-image1.png" rend="inline"/>
</figure>
<p><hi rend="bold">Abb. 1</hi>: Der geographische Skopus des Projekts. </p>
<p>Dieses ehrgeizige Ziel stellt hohe Anforderungen an die Organisation der Projektworkflows und erfordert zudem die Schaffung einer eigenen nachhaltigen und international vernetzten digitalen Forschungsinfrastruktur. Das Projekt leistet somit jenseits seiner linguistischen Ausrichtung einen wichtigen Beitrag für die Digital Humanities.</p>
</div>
<div type="div1" rend="DH-Heading1">
<head>Anforderungslage</head>
<p>Aufgrund des drohenden Verfalls der zum großen Teil auf obsoleten analogen Originalträgern (Wachswalzen, Schellackplatten, Mikrofiche etc.) vorhandenen Audio-Aufnahmen, Niederschriften und Beschreibungen, schließt sich in absehbarer Zeit das Fenster für einen Erhalt dieser Daten. Gleichzeitig gehen die Sprecherzahlen vieler Sprachen und Varietäten stetig zurück. Indem existierende Materialien zu digitalen Korpora aufbereitet und der bisherige Gesamtbestand um neue Ressourcen ergänzt wird, kann dieses Erbe als wertvolle empirische Basis für vielfältige Forschungsvorhaben
erhalten werden.</p><p>Vielmehr als nur ein digitales Archiv entsteht im Rahmen von <hi rend="italic">INEL</hi> jedoch
eine umfassende virtuelle Forschungsumgebung, die durch die Integration in
supranationale Forschungsinfrastrukturen der wissenschaftlichen Öffentlichkeit
dauerhaft zugänglich gemacht wird. Ein primäres Ziel des Projektes besteht
zunächst darin, existierende Beschreibungen einzelner nordeurasischer Sprachen
und Varietäten, die aufgrund der bisher begrenzten Auswahl von verfügbaren
Sprechern und Genres eher partikuläre Idiolekte dokumentieren, zusammenzutragen
und mit ergänzenden Korpora als umfangreiche digitale Ressource zugänglich zu
machen. Durch die so geschaffene, der Vielfalt der Sprache angemessenen,
Datenbasis werden für zukünftige Generationen von Forschenden erstmalig
varietätenübergreifende Analysen möglich, etwa die Erforschung
kontaktinduzierter Sprachveränderungen, Anwendungen aus dem Bereich der
Dialektometrie oder sprachsoziologische Untersuchungen. Die unterschiedlichen
Erhebungszeiten der Sprachdaten erlauben zudem erstmalig datengestützte
Untersuchungen von diachronem Sprachwandel sowie Grammatikalisierungsprozessen.
Ebenso bedeutend sind die Art des Zugangs zu den Sprachdaten und die damit
verbundenen Analysemöglichkeiten. Die Sprachdaten können in der entstehenden
Forschungsumgebung kollaborativ und dezentral um beliebige weitere
Beschreibungsebenen angereichert werden, die dann für verschiedene
Auswertungsszenarien zur Verfügung stehen. Auf diese Weise wird die virtuelle
Forschungsumgebung modular aufgebaut und in vielen Fällen so generisch sein,
dass auch die Resultate technologischer und methodologischer Entwicklungen der
akademischen Öffentlichkeit als Best Practices und als konkrete Grundlage für
vergleichbare Vorhaben zur Verfügung stehen werden.</p>
</div>
<div type="div1" rend="DH-Heading1">
<head>Modularisierung und Workflows</head>
<p>Die oben beschriebene Ausgangslage determiniert zwei Dimensionen der Entwicklung der entstehenden Ressourcen, denen durch entsprechende Modularisierung von Workflows begegnet werden muss. </p>
<p>1. Entwicklung hinsichtlich der arealen Abdeckung durch Erschließung der Einzelsprachen. </p>
<p>2. Entwicklung hinsichtlich der Komplexität der Daten infolge von hinzuzufügenden Glossierungen und Mehrebenenannotationen, die sowohl innerhalb des Erfassungsprozesses jeder Einzelsprache als auch über den gesamte Laufzeit erfolgen. </p>
<figure>
<graphic n="1002" width="16.002cm" height="8.71108888888889cm" url="044-image2.png" rend="inline"/>
</figure>
<p><hi rend="bold">Abb. 2</hi>: Teilprojekte.</p>
<p>Das Projekt gliedert sich dem entsprechend in insgesamt zwölf Teilprojekte (s.
Abbildung 2), von denen elf jeweils die Erschließung einer der zu erfassenden
Sprachvarietäten zum Gegenstand haben. Das zwölfte technisch-infrastrukturelle
Teilprojekt läuft im Gegensatz zu den elf jeweils auf drei Jahre angelegten
Erschließungsprojekten durchgängig über die gesamte Projektlaufzeit und schafft
somit die notwendige Kontinuität für die Entwicklung, Anpassung und Vermittlung
der Funktionalitäten der technischen Infrastruktur. Das Arbeitsprogramm wird für
die jeweiligen Teilprojekte aber auch teilprojektübergreifend in Form von
methodischen Arbeitspaketen umgesetzt:</p>
<div type="div2" rend="DH-Heading2">
<head>Arbeitspaket 1: Korpusaufbau</head>
<p>In diesem Arbeitspaket werden existierende Ressourcen erschlossen, kuratiert
und aufbereitet sowie ggf. um neu zu akquirierende und zu erhebende Daten
ergänzt. Die dabei erforderlichen Verarbeitungsschritte sind, wie in
Abbildung 3 dargestellt, modularisiert. Die Module Digitalisierung,
linguistische Modellierung, Annotation / Glossierung und
Finalisierung/Integration entsprechen jeweils Aufbereitungsschritten, die
abhängig vom Ausgangszustand der einzelnen Ressource für die Integration in
den Gesamtbestand erforderlich sind. </p>
<figure>
<graphic n="1003" width="16.002cm" height="12.0015cm" url="044-image3.png" rend="inline"/>
</figure>
<p><hi rend="bold">Abb. 3</hi>: Modularisierung und Anpassung der
Verarbeitungsschritte.</p>
<p>In der Praxis handelt es sich jedoch keineswegs um einen linearen Prozess,
den einzelne Texte einmalig durchlaufen und an dessen Ende die Speicherung
und Zugänglichkeit einer in sich geschlossenen Ressource in einem digitalen
Repositorium steht. Vielmehr müssen die zu planenden Workflows der
Aufbereitung und Speicherung den tatsächlichen Gegebenheiten der
Datenaufbereitung in Projekten dieser Art Rechnung tragen (s. Abbildung
4):</p>
<p>- Es ist in vielen Fällen wünschenswert, Versionen von Ressourcen bereits in einem frühen Stadium der Aufbereitung (beispielsweise noch vor Abschluss der Annotation und Glossierung) der wissenschaftlichen Öffentlichkeit zugänglich zu machen. </p>
<p>- Bei dem Arbeitsschritt der Annotation und Glossierung handelt es sich
wiederum um iterative Prozesse, in deren Rahmen mehrere Ebenen der
Auszeichnung, möglichwerweise sogar zeitlich überlappend, zu den Primärdaten
hinzugefügt werden, was hohe Anforderungen an Koordination und
Qualitätskontrolle stellt. </p>
<p>- Insbesondere bei Langzeitvorhaben entstehen oft neue Versionen von Korpora aus bereits bestehenden Ressourcen, indem diese mit zusätzlichen Annotationsebenen ausgezeichnet werden.</p>
<figure>
<graphic n="1004" width="16.002cm" height="7.355416666666667cm" url="044-image4.png" rend="inline"/>
</figure>
<p>
<hi rend="bold">Abb. 4</hi>: Nicht-lineare Abfolge der
Verarbeitungsschritte. </p>
<p>Diesen Gegebenheiten kann in der Praxis durch ein ausdifferenziertes Versionierungskonzept begegnet werden. Im Rahmen des Vortrages werden einige konkrete Workflows aus dem Projekt vorgestellt und ihre Implementierung unter Verwendung eines <ref target="http://git-scm.com">Git</ref>-basierten Repositoriums ausführlich erläutert.
</p>
</div>
<div type="div2" rend="DH-Heading2">
<head>Arbeitspaket 2: Infrastruktur und Best Practices</head>
<p>Die zu errichtende Infrastruktur basiert in vielerlei Hinsicht auf den Vorarbeiten des HZSK sowie generell auf vorangegangenen Erkenntnissen aus dem Aufbau digitaler Forschungsumgebungen. Große Teile der gewünschten Funktionalitäten wurden bisher in Form von Standalone-Werkzeugen (bspw. <ref target="http://www.exmaralda.org">EXMARaLDA</ref>) oder Webapplikationen (bspw. als Teil der CLARIN-D-Infrastruktur) am HZSK entwickelt und eingesetzt. Einen integralen Bestandteil der Infrastruktur bildet ein Repositorium, mit dessen Hilfe die nachhaltige Datenvorhaltung gewährleistet werden kann. Weitere Komponenten, die unmittelbar daran anknüpfen, bilden zusätzliche relevante Aspekte der gewünschten Funktionalität der Infrastruktur ab, wie etwa die kollaborative Bearbeitung und Aufbereitung von Daten in der Arbeitsumgebung, die Auslieferung von Metadaten an Kataloge und Archive, welche die Auffindbarkeit der Ressourcen für andere Forscher ermöglicht, sowie Schnittstellen für die Exploration und Analyse der vorgehaltenen Ressourcen. Auch die fortlaufende Anbindung an bzw. Vernetzung mit weiteren bestehenden Forschungsinfrastrukturen wird als essentielles Merkmal des Projektes betrachtet.
</p>
</div>
<div type="div2" rend="DH-Heading2">
<head>Arbeitspaket 3: Evaluation und Dissemination</head>
<p>Neben der organisatorischen und der technisch-infrastrukturellen Organisation
und Vernetzung, die mit den Arbeitspaketen 1 und 2 abgedeckt ist, erfordert
ein Langzeitprojekt wie <hi rend="italic">INEL</hi> zudem umfassende
Arbeiten im Bereich der Dissemination und den Austauschs im supranationalen
interdisziplinären Kontexten mit anderen Forschenden. Um neue
Arbeitsinstrumente zu entwickeln und zu diskutieren, Arbeitspläne zu
koordinieren, aktuelle Forschungsfragen und die mit der Projektarbeit
zusammenhängenden praktischen Fragestellungen zu diskutieren sowie zu
Zwecken der Fortbildung werden im Rahmen von <hi rend="italic">INEL</hi>
jährliche Workshops abgehalten, an denen ausgewählte Konsultanten sowie
Kooperationspartner aus dem Ausland und die Projektmitarbeiter selbst
teilnehmen.</p>
</div>
</div>
<div type="div1" rend="DH-Heading1">
<head>Ausblick</head>
<p>Der Beitrag basiert auf den Planungen zu der <hi rend="italic"
>INEL</hi>-Langzeitprojekt, dessen 18-jährige Laufzeit im Januar 2016 beginnen
wird. Die Vorarbeiten zu dem Projekt lieferten wichtige Erkenntnisse
hinsichtlich der Modularisierung von Projektabläufen sowie der Priorisierung von
Verarbeitungsschritten der Datenaufbereitung. So wird beispielsweise der
technische Fokus nicht auf der Neuentwicklung von weiteren Werkzeugen und
Standards der Datenaufbereitung, sondern der Entwicklung von modularisierten
Infrastrukturen und Workflows liegen, die auf die Interoperabilität, Interaktion
und Integration existierende Komponenten abzielen. Nur so kann ein flexibler
Betrieb der <hi rend="italic">INEL</hi>-Infrastruktur in einer sich permanent
wandelnden Ressourcen- und Infrastrukturlandschaft gewährleistet werden. </p>
<p>Von der Entwicklung und Erprobung kontrollierter und modularisierter Workflows der Datenaufbereitung, die beispielsweise eine transparente Dokumentation und Publikation entstehender Versionen von Forschungsdatensammlungen erlauben, sind zudem wichtige Beiträge auf dem Feld des Forschungsdatenmanagements von Projekten in den Digital Humanities zu erhoffen.</p>
</div>
</body>
<back>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl><hi rend="bold">Git-Hub</hi> (o.J.): <hi rend="italic">Git</hi>. Local
branching on the cheap <ref target="http://git-scm.com/"
>http://git-scm.com/</ref> [letzter Zugriff 16. Februar 2016].</bibl>
<bibl><hi rend="bold">Hedeland, Hanna / Lehmberg, Timm / Schmidt, Thomas /
Wörner, Kai</hi> (o.J.): <hi rend="italic">EXMARaLDA</hi>. Werkzeuge für
mündliche Korpora <ref target="http://www.exmaralda.org/"
>http://www.exmaralda.org/</ref> [letzter Zugriff 16. Februar
2016].</bibl>
<bibl><hi rend="bold">HZSK</hi> (o.J.): <hi rend="italic">Hamburger Zentrum für
Sprachkorpora</hi>
<ref target="https://corpora.uni-hamburg.de/drupal/"
>https://corpora.uni-hamburg.de/drupal/</ref> [letzter Zugriff 16.
Februar 2016].</bibl>
<bibl><hi rend="bold">Universität Hamburg</hi> (o.J.): <hi rend="italic"
>Institut für Finnougristik / Uralistik</hi>
<ref target="https://www.slm.uni-hamburg.de/ifuu"
>https://www.slm.uni-hamburg.de/ifuu</ref> [letzter Zugriff 16. Februar
2016].</bibl>
</listBibl>
</div>
</back>
</text>
</TEI>