input/xml/vorträge-044.xml

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="vorträge-044">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>Digitale Workflows in Langzeitprojekten am Beispiel einer Infrastruktur zur Dokumentation indigener nordeurpoäischer Sprachen (INEL)</title>
        <author>
          <name>
            <surname>Hedeland</surname>
            <forename>Hanna</forename>
          </name>
          <affiliation>Universität Hamburg, Deutschland</affiliation>
          <email>hanna.hedeland@uni-hamburg.de</email>
        </author>
        <author>
          <name>
            <surname>Lehmberg</surname>
            <forename>Timm</forename>
          </name>
          <affiliation>Universität Hamburg, Deutschland</affiliation>
          <email>timm.lehmberg@uni-hamburg.de</email>
        </author>
        <author>
          <name>
            <surname>Wagner-Nagy</surname>
            <forename>Beata</forename>
          </name>
          <affiliation>Universität Hamburg, Deutschland</affiliation>
          <email>beata.wagner-nagy@uni-hamburg.de</email>
        </author>
      </titleStmt>
      <editionStmt>
        <edition>
          <date>2015-10-04T22:02:00Z</date>
        </edition>
      </editionStmt>
      <publicationStmt>
        <publisher>Elisabeth Burr, Universität Leipzig</publisher>
        <address>
          <addrLine>Beethovenstr. 15</addrLine>
          <addrLine>04107 Leipzig</addrLine>
          <addrLine>Deutschland</addrLine>
          <addrLine>Elisabeth Burr</addrLine>
        </address>
      </publicationStmt>
      <sourceDesc>
        <p>Converted from a Word document </p>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <appInfo>
        <application ident="DHCONVALIDATOR" version="1.14">
          <label>DHConvalidator</label>
        </application>
      </appInfo>
    </encodingDesc>
    <profileDesc>
      <textClass>
        <keywords scheme="ConfTool" n="category">
          <term>Vortrag</term>
        </keywords>
        <keywords scheme="ConfTool" n="subcategory">
          <term></term>
        </keywords>
        <keywords scheme="ConfTool" n="keywords">
          <term>Best Practices</term>
          <term>Sprachdokumentation</term>
          <term>Workflows</term>
          <term>Forschungsinfrastruktur</term>
          <term>Langzeitprojekt</term>
        </keywords>
        <keywords scheme="ConfTool" n="topics">
          <term>Teilen</term>
          <term>Umwandlung</term>
          <term>Datenerkennung</term>
          <term>Entdeckung</term>
          <term>Sammlung</term>
          <term>Aufzeichnung</term>
          <term>Transkription</term>
          <term>Programmierung</term>
          <term>Annotieren</term>
          <term>Theoretisierung</term>
          <term>Bereinigung</term>
          <term>Bearbeitung</term>
          <term>Archivierung</term>
          <term>Community-Bildung</term>
          <term>Veröffentlichung</term>
          <term>Kollaboration</term>
          <term>Lehre</term>
          <term>Projektmanagement</term>
          <term>Webentwicklung</term>
          <term>Organisation</term>
          <term>Konservierung</term>
          <term>Daten</term>
          <term>Infrastruktur</term>
          <term>Sprache</term>
          <term>Manuskript</term>
          <term>Karte</term>
          <term>Metadaten</term>
          <term>Methoden</term>
          <term>Projekte</term>
          <term>Ton</term>
          <term>Standards</term>
          <term>virtuelle Forschungsumgebungen</term>
        </keywords>
      </textClass>
    </profileDesc>
  </teiHeader>
  <text>
    <body>
      <div type="div1" rend="DH-Heading1">
        <head>Zusammenfassung</head>
        <p>Gegenstand des Beitrages sind die Arbeiten zu digitalen Workflows und
          infrastruktureller Einbindung im Rahmen des Langzeitprojektes <hi rend="italic"
          >INEL</hi> (Grammatical Descriptions, Corpora, and Language Technology for
          Indigenous Northern Eurasian Languages), das am Institut für <ref
          target="http://www.slm.uni-hamburg.de/ifuu">Finnougristik und
          Uralistik</ref> (IFUU) und dem <ref target="http://corpora.uni-hamburg.de"
          >Hamburger Zentrum für Sprachkorpora</ref> (HZSK) der Universität Hamburg
          verortet ist. Ziel des Projektes ist es, über den Zeitraum von 18 Jahren die
          dringend erforderliche Erschließung der sprachlichen Ressourcen des genealogisch
          diversen nordeurasischen Sprachraums (s. Abbildung 1) zu leisten. Durch den
          Einsatz von State-of-the-Art-Methoden und -Werkzeugen der linguistischen
          Datenaufbereitung, die bisher nur für gut erforschten Sprachen und Varietäten
          zum Einsatz kamen, wird eine Lücke in diesen für die empirische
          Sprachwissenschaft bisher schlecht zugänglichen Arealen der Welt nachhaltig
          geschlossen. </p>
          <figure>
            <graphic n="1001" width="16.002cm" height="19.939cm" url="044-image1.png" rend="inline"/>
          </figure>
          <p><hi rend="bold">Abb. 1</hi>: Der geographische Skopus des Projekts. </p>
          <p>Dieses ehrgeizige Ziel stellt hohe Anforderungen an die Organisation der Projektworkflows und erfordert zudem die Schaffung einer eigenen nachhaltigen und international vernetzten digitalen Forschungsinfrastruktur. Das Projekt leistet somit jenseits seiner linguistischen Ausrichtung einen wichtigen Beitrag für die Digital Humanities.</p>
        </div>
        <div type="div1" rend="DH-Heading1">
          <head>Anforderungslage</head>
          <p>Aufgrund des drohenden Verfalls der zum großen Teil auf obsoleten analogen Originalträgern (Wachswalzen, Schellackplatten, Mikrofiche etc.) vorhandenen Audio-Aufnahmen, Niederschriften und Beschreibungen, schließt sich in absehbarer Zeit das Fenster für einen Erhalt dieser Daten. Gleichzeitig gehen die Sprecherzahlen vieler Sprachen und Varietäten stetig zurück. Indem existierende Materialien zu digitalen Korpora aufbereitet und der bisherige Gesamtbestand um neue Ressourcen ergänzt wird, kann dieses Erbe als wertvolle empirische Basis für vielfältige Forschungsvorhaben
            erhalten werden.</p><p>Vielmehr als nur ein digitales Archiv entsteht im Rahmen von <hi rend="italic">INEL</hi> jedoch
            eine umfassende virtuelle Forschungsumgebung, die durch die Integration in
            supranationale Forschungsinfrastrukturen der wissenschaftlichen Öffentlichkeit
            dauerhaft zugänglich gemacht wird. Ein primäres Ziel des Projektes besteht
            zunächst darin, existierende Beschreibungen einzelner nordeurasischer Sprachen
            und Varietäten, die aufgrund der bisher begrenzten Auswahl von verfügbaren
            Sprechern und Genres eher partikuläre Idiolekte dokumentieren, zusammenzutragen
            und mit ergänzenden Korpora als umfangreiche digitale Ressource zugänglich zu
            machen. Durch die so geschaffene, der Vielfalt der Sprache angemessenen,
            Datenbasis werden für zukünftige Generationen von Forschenden erstmalig
            varietätenübergreifende Analysen möglich, etwa die Erforschung
            kontaktinduzierter Sprachveränderungen, Anwendungen aus dem Bereich der
            Dialektometrie oder sprachsoziologische Untersuchungen. Die unterschiedlichen
            Erhebungszeiten der Sprachdaten erlauben zudem erstmalig datengestützte
            Untersuchungen von diachronem Sprachwandel sowie Grammatikalisierungsprozessen.
            Ebenso bedeutend sind die Art des Zugangs zu den Sprachdaten und die damit
            verbundenen Analysemöglichkeiten. Die Sprachdaten können in der entstehenden
            Forschungsumgebung kollaborativ und dezentral um beliebige weitere
            Beschreibungsebenen angereichert werden, die dann für verschiedene
            Auswertungsszenarien zur Verfügung stehen. Auf diese Weise wird die virtuelle
            Forschungsumgebung modular aufgebaut und in vielen Fällen so generisch sein,
            dass auch die Resultate technologischer und methodologischer Entwicklungen der
            akademischen Öffentlichkeit als Best Practices und als konkrete Grundlage für
            vergleichbare Vorhaben zur Verfügung stehen werden.</p>
          </div>
          <div type="div1" rend="DH-Heading1">
            <head>Modularisierung und Workflows</head>
            <p>Die oben beschriebene Ausgangslage determiniert zwei Dimensionen der Entwicklung der entstehenden Ressourcen, denen durch entsprechende Modularisierung von Workflows begegnet werden muss. </p>
            <p>1. Entwicklung hinsichtlich der arealen Abdeckung durch Erschließung der Einzelsprachen. </p>
            <p>2. Entwicklung hinsichtlich der Komplexität der Daten infolge von hinzuzufügenden Glossierungen und Mehrebenenannotationen, die sowohl innerhalb des Erfassungsprozesses jeder Einzelsprache als auch über den gesamte Laufzeit erfolgen. </p>
            <figure>
              <graphic n="1002" width="16.002cm" height="8.71108888888889cm" url="044-image2.png" rend="inline"/>
            </figure>
            <p><hi rend="bold">Abb. 2</hi>: Teilprojekte.</p>
            <p>Das Projekt gliedert sich dem entsprechend in insgesamt zwölf Teilprojekte (s.
              Abbildung 2), von denen elf jeweils die Erschließung einer der zu erfassenden
              Sprachvarietäten zum Gegenstand haben. Das zwölfte technisch-infrastrukturelle
              Teilprojekt läuft im Gegensatz zu den elf jeweils auf drei Jahre angelegten
              Erschließungsprojekten durchgängig über die gesamte Projektlaufzeit und schafft
              somit die notwendige Kontinuität für die Entwicklung, Anpassung und Vermittlung
              der Funktionalitäten der technischen Infrastruktur. Das Arbeitsprogramm wird für
              die jeweiligen Teilprojekte aber auch teilprojektübergreifend in Form von
              methodischen Arbeitspaketen umgesetzt:</p>
              <div type="div2" rend="DH-Heading2">
                <head>Arbeitspaket 1: Korpusaufbau</head>
                <p>In diesem Arbeitspaket werden existierende Ressourcen erschlossen, kuratiert
                  und aufbereitet sowie ggf. um neu zu akquirierende und zu erhebende Daten
                  ergänzt. Die dabei erforderlichen Verarbeitungsschritte sind, wie in
                  Abbildung 3 dargestellt, modularisiert. Die Module Digitalisierung,
                  linguistische Modellierung, Annotation / Glossierung und
                  Finalisierung/Integration entsprechen jeweils Aufbereitungsschritten, die
                  abhängig vom Ausgangszustand der einzelnen Ressource für die Integration in
                  den Gesamtbestand erforderlich sind. </p>
                  <figure>
                    <graphic n="1003" width="16.002cm" height="12.0015cm" url="044-image3.png" rend="inline"/>
                  </figure>
                  <p><hi rend="bold">Abb. 3</hi>: Modularisierung und Anpassung der
                  Verarbeitungsschritte.</p>
                  <p>In der Praxis handelt es sich jedoch keineswegs um einen linearen Prozess,
                    den einzelne Texte einmalig durchlaufen und an dessen Ende die Speicherung
                    und Zugänglichkeit einer in sich geschlossenen Ressource in einem digitalen
                    Repositorium steht. Vielmehr müssen die zu planenden Workflows der
                    Aufbereitung und Speicherung den tatsächlichen Gegebenheiten der
                    Datenaufbereitung in Projekten dieser Art Rechnung tragen (s. Abbildung
                    4):</p>
                    <p>- Es ist in vielen Fällen wünschenswert, Versionen von Ressourcen bereits in einem frühen Stadium der Aufbereitung (beispielsweise noch vor Abschluss der Annotation und Glossierung) der wissenschaftlichen Öffentlichkeit zugänglich zu machen. </p>
                    <p>- Bei dem Arbeitsschritt der Annotation und Glossierung handelt es sich
                      wiederum um iterative Prozesse, in deren Rahmen mehrere Ebenen der
                      Auszeichnung, möglichwerweise sogar zeitlich überlappend, zu den Primärdaten
                      hinzugefügt werden, was hohe Anforderungen an Koordination und
                      Qualitätskontrolle stellt. </p>
                      <p>- Insbesondere bei Langzeitvorhaben entstehen oft neue Versionen von Korpora aus bereits bestehenden Ressourcen, indem diese mit zusätzlichen Annotationsebenen ausgezeichnet werden.</p>
                      <figure>
                        <graphic n="1004" width="16.002cm" height="7.355416666666667cm" url="044-image4.png" rend="inline"/>
                      </figure>
                      <p>
                        <hi rend="bold">Abb. 4</hi>: Nicht-lineare Abfolge der
                        Verarbeitungsschritte. </p>
                        <p>Diesen Gegebenheiten kann in der Praxis durch ein ausdifferenziertes Versionierungskonzept begegnet werden. Im Rahmen des Vortrages werden einige konkrete Workflows aus dem Projekt vorgestellt und ihre Implementierung unter Verwendung eines <ref target="http://git-scm.com">Git</ref>-basierten Repositoriums ausführlich erläutert.
                      </p>
                    </div>
                    <div type="div2" rend="DH-Heading2">
                      <head>Arbeitspaket 2: Infrastruktur und Best Practices</head>
                      <p>Die zu errichtende Infrastruktur basiert in vielerlei Hinsicht auf den Vorarbeiten des HZSK sowie generell auf vorangegangenen Erkenntnissen aus dem Aufbau digitaler Forschungsumgebungen. Große Teile der gewünschten Funktionalitäten wurden bisher in Form von Standalone-Werkzeugen (bspw. <ref target="http://www.exmaralda.org">EXMARaLDA</ref>) oder Webapplikationen (bspw. als Teil der CLARIN-D-Infrastruktur) am HZSK entwickelt und eingesetzt. Einen integralen Bestandteil der Infrastruktur bildet ein Repositorium, mit dessen Hilfe die nachhaltige Datenvorhaltung gewährleistet werden kann. Weitere Komponenten, die unmittelbar daran anknüpfen, bilden zusätzliche relevante Aspekte der gewünschten Funktionalität der Infrastruktur ab, wie etwa die kollaborative Bearbeitung und Aufbereitung von Daten in der Arbeitsumgebung, die Auslieferung von Metadaten an Kataloge und Archive, welche die Auffindbarkeit der Ressourcen für andere Forscher ermöglicht, sowie Schnittstellen für die Exploration und Analyse der vorgehaltenen Ressourcen. Auch die fortlaufende Anbindung an bzw. Vernetzung mit weiteren bestehenden Forschungsinfrastrukturen wird als essentielles Merkmal des Projektes betrachtet.
                    </p>
                  </div>
                  <div type="div2" rend="DH-Heading2">
                    <head>Arbeitspaket 3: Evaluation und Dissemination</head>
                    <p>Neben der organisatorischen und der technisch-infrastrukturellen Organisation
                      und Vernetzung, die mit den Arbeitspaketen 1 und 2 abgedeckt ist, erfordert
                      ein Langzeitprojekt wie <hi rend="italic">INEL</hi> zudem umfassende
                      Arbeiten im Bereich der Dissemination und den Austauschs im supranationalen
                      interdisziplinären Kontexten mit anderen Forschenden. Um neue
                      Arbeitsinstrumente zu entwickeln und zu diskutieren, Arbeitspläne zu
                      koordinieren, aktuelle Forschungsfragen und die mit der Projektarbeit
                      zusammenhängenden praktischen Fragestellungen zu diskutieren sowie zu
                      Zwecken der Fortbildung werden im Rahmen von <hi rend="italic">INEL</hi>
                      jährliche Workshops abgehalten, an denen ausgewählte Konsultanten sowie
                      Kooperationspartner aus dem Ausland und die Projektmitarbeiter selbst
                      teilnehmen.</p>
                    </div>
                  </div>
                  <div type="div1" rend="DH-Heading1">
                    <head>Ausblick</head>
                    <p>Der Beitrag basiert auf den Planungen zu der <hi rend="italic"
                      >INEL</hi>-Langzeitprojekt, dessen 18-jährige Laufzeit im Januar 2016 beginnen
                      wird. Die Vorarbeiten zu dem Projekt lieferten wichtige Erkenntnisse
                      hinsichtlich der Modularisierung von Projektabläufen sowie der Priorisierung von
                      Verarbeitungsschritten der Datenaufbereitung. So wird beispielsweise der
                      technische Fokus nicht auf der Neuentwicklung von weiteren Werkzeugen und
                      Standards der Datenaufbereitung, sondern der Entwicklung von modularisierten
                      Infrastrukturen und Workflows liegen, die auf die Interoperabilität, Interaktion
                      und Integration existierende Komponenten abzielen. Nur so kann ein flexibler
                      Betrieb der <hi rend="italic">INEL</hi>-Infrastruktur in einer sich permanent
                      wandelnden Ressourcen- und Infrastrukturlandschaft gewährleistet werden. </p>
                      <p>Von der Entwicklung und Erprobung kontrollierter und modularisierter Workflows der Datenaufbereitung, die beispielsweise eine transparente Dokumentation und Publikation entstehender Versionen von Forschungsdatensammlungen erlauben, sind zudem wichtige Beiträge auf dem Feld des Forschungsdatenmanagements von Projekten in den Digital Humanities zu erhoffen.</p>
                    </div>
                  </body>
                  <back>
                    <div type="bibliogr">
                      <listBibl>
                        <head>Bibliographie</head>
                        <bibl><hi rend="bold">Git-Hub</hi> (o.J.): <hi rend="italic">Git</hi>. Local
                        branching on the cheap <ref target="http://git-scm.com/"
                        >http://git-scm.com/</ref> [letzter Zugriff 16. Februar 2016].</bibl>
                        <bibl><hi rend="bold">Hedeland, Hanna / Lehmberg, Timm / Schmidt, Thomas /
                          Wörner, Kai</hi> (o.J.): <hi rend="italic">EXMARaLDA</hi>. Werkzeuge für
                          mündliche Korpora <ref target="http://www.exmaralda.org/"
                          >http://www.exmaralda.org/</ref> [letzter Zugriff 16. Februar
                          2016].</bibl>
                          <bibl><hi rend="bold">HZSK</hi> (o.J.): <hi rend="italic">Hamburger Zentrum für
                          Sprachkorpora</hi>
                          <ref target="https://corpora.uni-hamburg.de/drupal/"
                            >https://corpora.uni-hamburg.de/drupal/</ref> [letzter Zugriff 16.
                            Februar 2016].</bibl>
                            <bibl><hi rend="bold">Universität Hamburg</hi> (o.J.): <hi rend="italic"
                            >Institut für Finnougristik / Uralistik</hi>
                            <ref target="https://www.slm.uni-hamburg.de/ifuu"
                              >https://www.slm.uni-hamburg.de/ifuu</ref> [letzter Zugriff 16. Februar
                              2016].</bibl>
                            </listBibl>
                          </div>
                        </back>
                      </text>
                    </TEI>