Daten- und Kompetenzzentren

Die Text+ Datendomänen sind in thematischen Clustern organisiert, wodurch eine umfassende Erfassung von Forschungsdaten gewährleistet wird. Die Cluster bündeln alle Aktivitäten im Zusammenhang mit bestimmten Subtypen von Daten und Forschungsmethoden in einer Datendomäne entsprechend der Bedürfnisse und Forschungsprioritäten der jeweiligen Interessensgemeinschaft. Sie werden in einen kontinuierlichen Dialog mit Geisteswissenschaftlern treten und Daten, Software und Gemeinschaftsdienste für ein breites Spektrum wissenschaftlicher Disziplinen in den Geisteswissenschaften anbieten, deren Forschungsdaten sich auf Sprache und Text fokussieren.

Die folgenden acht Cluster werden sich zunächst auf die Bereiche Alte Kulturen, Anthropologie, Klassische Philologie, Komparative Literaturwissenschaft, Computerlinguistik, Sprach- und Literaturwissenschaft für europäische und außereuropäische Philologien, Mediävistik, Philosophie und Religionswissenschaften konzentrieren.

Ein Cluster besteht in der Regel aus mindestens einem, oft mehreren Datenzentren und weiteren Kompetenzzentren. Diese sind in der folgenden Übersicht dargestellt.

Akademie der Wissenschaften in Hamburg, AdWHH, Zentrum für Interdisziplinarität und linguistische Diversität in Sprachdaten

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Contemporary Language; Historical Text

Seit ihrer Gründung im Jahr 2004 fördert die AdWHH die interdisziplinäre Forschung zu gesellschaftlich bedeutsamen Zukunftsfragen und grundlegenden wissenschaftlichen Problemen. Darüber hinaus koordiniert die AdWHH derzeit fünf langfristig angelegte Forschungsprojekte im Rahmen des Akademienprogramms (das wiederum von der Union der deutschen Akademien der Wissenschaften koordiniert wird), die jeweils einen starken Fokus auf die digitale Erschließung und Analyse einzigartigen und vielfältigen Sprachmaterials legen. Als prominentes Beispiel ist das Projekt DGS-Korpus zu nennen, das die umfassende Sammlung von Gebärdensprachdaten und deren Zusammenstellung in Form des Öffentlichen DGS-Korpus zum Ziel hat.

Um eine solide Grundlage für die langfristige Verfügbarkeit vielfältiger sprachlicher Ressourcen für weltweite Forschungsgemeinschaften und die interessierte Öffentlichkeit zu schaffen, bereitet die AdWHH derzeit eine gemeinsame Initiative mit dem Zentrum für nachhaltiges Forschungsdatenmanagement (FDM) vor. 

Als zentrale Betriebseinheit an der Universität Hamburg stellt das FDM unter anderem eine lokale technische Infrastruktur (einschließlich eines Datenrepositoriums) für nachhaltiges Forschungsdatenmanagement zur Verfügung.

Folgende Expertisen/Ressourcen sollen mit der Text+ Infrastruktur zur Verfügung gestellt werden (mit den Leitern des HH Langzeitvorhaben zu spezifizieren/diskutieren):

  • Beta maṣāḥǝft
    Eine systematische Studie der christlichen Manuskripttradition Äthiopiens und Eritreas.
  • DGS-Korpus
    Erfasst und dokumentiert systematisch die Deutsche Gebärdensprache (DGS) in ihrer ganzen Vielfalt und erstellt auf der Grundlage der Korpusdaten ein elektronisches Wörterbuch.
  • Etymologika
    Kritische Ausgabe, Übersetzung und Kommentierung der griechischen Enzyklopädie „Etymologicum Gudianum“. Erforschung der reichen Manuskriptproduktion griechisch-byzantinischer etymologischer Enzyklopädien und Präsentation der Ergebnisse in einer gedruckten und umfangreichen digitalen Version.
  • INEL Corpus
    Indigene nordeurasische Sprachen (INEL): Bereitstellung von Sprachressourcen für indigene Sprachen und Schaffung einer digitalen Forschungsinfrastruktur für die Nutzung dieser Ressourcen. Ausführlich kommentierte, beschönigte und zum größten Teil audio-alignierte Korpora der Sprachen Dolgan, Kamas und Selkup. Während der vorgesehenen Förderperiode werden Korpora weiterer Sprachen (z.B. Evenkisch, Nenzisch, etc.) folgen.
  • Formulae – Litterae – Chartae
    Erforschung und kritische Edition der frühmittelalterlichen Formulae sowie Zugriffsmöglichkeiten zu diesen über eine digitale Forschungsinfrastruktur, die eine Erforschung der Formulae-Schrift in Westeuropa vor der Entwicklung der ars dictaminis auf der Grundlage von Briefen und Urkunden ermöglicht.

Berlin-Brandenburgische Akademie der Wissenschaften, BBAW

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Historical Texts (Coord.); Contemporary Language

Das Zentrum Sprache an der BBAW verfügt über verschiedene Textsammlungen und Spezialkorpora, die vor allem die (historische) deutsche Sprache dokumentieren. Dazu gehört das Deutsche Textarchiv (DTA), das mit mehr als 350 Millionen Tokens auf 1,34 Millionen digitalisierten Seiten das größte zusammenhängende (Referenz-)Korpus des Neuhochdeutschen vom 16. bis zum frühen 20.Jahrhundert darstellt. In der Community der Korpus- und ComputerlinguistInnen, LiteraturwissenschaftlerInnen, HistorikerInnen, KulturwissenschaftlerInnen und anderen Forschungsbereichen ist das DTA etabliert und weit verbreitet. Das DTA umfasst umfassend annotierte Volltexttranskriptionen von Drucken, Zeitungen und Zeitschriften sowie handgeschriebenen Dokumenten verschiedener Gattungen und Textarten. Die Transkriptionen sind gemäß der Empfehlungen der Text Encoding Initiative (TEI) in TEI-XML kodiert. Externe Beitragende können weitere Textressourcen als DTA-Erweiterungen (DTAE) in die DTA-Infrastruktur integrieren. Der Workflow deckt alle Schritte der Datenkuration von der Erfassung und Annotation, dem Rendering in verschieden Ausgabeformaten (HTML, plaintext, …) bis hin zur  Publikation und Archivierung der Text- und Metadaten ab. Im Rahmen des Projekts CLARIAH-DE wird die gesamte „Digitale Bibliothek“ des TextGrid Repository nach sorgfältiger Kuratierung, Ergänzung, notwendigen Korrekturen und Anreicherung der Bestandsdaten aus dem TextGridRep in die BBAW-Infrastruktur integriert und damit die beiden größten wissenschaftlich annotierten Literaturkorpora zusammengeführt.

Alle Texte werden nach dem DTA-Basisformat (DTABf) kodiert, einem Subset der TEI-Richtlinien, was zu vollständig standardisierten und interoperablen Dokumenten führt. Das DTABf wird von der Deutschen Forschungsgemeinschaft (DFG) und CLARIN-D empfohlen und wurde bereits von mehr als 30 Projekten im In- und Ausland verwendet. Ein Set aus Werkzeugen und Services hilft im Vorfeld bei der Vorbereitung, Verarbeitung und Analyse der Daten, während die webbasierte Plattform DTAQ die kollaborative Qualitätssicherung unterstützt. DTAQ stellt verschiedene Such- und Abrufmöglichkeiten, Datenanalyse- und Visualisierungswerkzeuge zur Verfügung. Es werden verschiedene Ausgabeformate zum Herunterladen und zur Wiederverwendung in anderen Kontexten generiert.

Das DTA ist eng mit dem Digitalen Wörterbuch der deutschen Sprache (DWDS) verbunden und innerhalb einer gemeinsamen Infrastruktur zugänglich. Daraus ergibt sich ein Korpusbestand, der mehr als 500 Jahre umfasst, vom 16. Jahrhundert bis in die Gegenwart. Integrierte Spezialkorpora, die ebenfalls am Zentrum Sprache gehostet werden, decken darüber hinaus noch frühere Epochen ab, z.B. das mittelhochdeutsche Referenzkorpus. Als einer der Koordinatoren des von der DFG geförderten OCR-D-Projekts, durch die Bereitstellung von Ground Truth-Daten sowie Formatempfehlungen für den OCR-Prozess hat das Zentrum Sprache an der BBAW dazu beigetragen, die Expertise und Infrastruktur für die Volltextdigitalisierung der umfangreichen Sammlungen des VD 16, 17, 18 (Verzeichnisse der im deutschen Sprachbereich erschienenen Drucke) und des 19. Jahrhunderts aufzubauen und zu gestalten.

Die an der BBAW aufgebaute Korpus-Infrastruktur stellt die langfristige Verfügbarkeit, die dauerhafte Adressierbarkeit und die Versionierung der Daten über das CoreTrustSeal-zertifizierte CLARIN-Repository sicher. Im Rahmen dieser Aktivitäten wird das Zentrum Sprache als Kompetenzzentrum für historische Texte und Daten sowie für Formatspezifikationen und Standardisierungsaktivitäten, Werkzeuge und Dienstleistungen in diesem Bereich eingerichtet. Darüber hinaus hat die BBAW im Rahmen von CLARIN-D mehr als 50 Kooperationsprojekten Beratung und Schulung zu den entsprechenden Werkzeugen, Arbeitsabläufen und Verfahren angeboten.

Deutsche Nationalbibliothek, DNB

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Unstructured Text (Coord.)

Die DNB ist Deutschlands zentrale Archivbibliothek. Sie sammelt, dokumentiert und archiviert alle seit 1913 in Deutschland erschienenen Publikationen und Tonträger sowie Werke, die in deutscher Sprache erstellt wurden oder einen Bezug zu Deutschland haben. Entsprechend ihrem gesetzlichen Auftrag baut die DNB eine große, ständig wachsende digitale Sammlung auf und wird diese unter Beachtung der rechtlichen Rahmenbedingungen in Text+ integrieren. Diese Sammlung ist bereits in sich inhomogen und reicht von zeitgenössischer deutschsprachiger Literatur über alle Tageszeitungen, wissenschaftlichen Artikel aus deutschen Verlagen bis hin zu Kioskliteratur. Sie umfasst auch eine Reihe von Sondersammlungen, wie z.B. das Archiv und die Bibliothek des Börsenvereins des Deutschen Buchhandels e.V. oder die Sammlung des Deutschen Exilarchivs 1933-1945 mit Exilpresse digital. Indem die DNB die digitale Sammlung von Texten des 21. Jahrhunderts so flexibel wie möglich bereitstellt, erleichtert sie die Umsetzung von Forschungsprojekten verschiedenster Disziplinen und unterstützt Projekte bei der Korpusbildung.

Der Zugang zu den meisten Objekten in den Beständen der DNB ist aus urheberrechtlichen Gründen beschränkt. Abseits der Nutzung von Volltexten müssen rechtskonforme, flexiblere Zugangsmöglichkeiten entwickelt werden. Zusammen mit dem Scientific Coordination Committee wird sich die DNB an der Entwicklung eines Satzes abgeleiteter Textformate, wie N-Gramme und andere, beteiligen.

Die DNB wird eine aktive Rolle bei der Weiterentwicklung von Techniken zur Verknüpfung von Sammlungen mit anderen lokal und thematisch getrennten Datensätzen aus Text+ über Linked Open Data (LOD) und insbesondere über Normdateien wie die Gemeinsame Normdatei (GND) oder über lexikalische Ressourcen spielen. Sie wird die GND auch im Hinblick auf die Bedürfnisse der wissenschaftlichen Gemeinschaften weiterentwickeln. Zusammen mit dem Leibniz-Institut für Deutsche Sprache (IDS) wird die DNB ein zentraler Anlaufpunkt für die Vielzahl rechtlicher Themen sein, die sich aus der Nutzung und Veröffentlichung textbasierter Daten ergeben.

Leibniz-Institut für Deutsche Sprache, IDS

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen:  Contemporary Language (Coord.); Historical Texts

Das IDS ist Deutschlands zentrale wissenschaftliche Einrichtung zur Dokumentation und Erforschung der deutschen Sprache in ihrem gegenwärtigen Gebrauch und der neueren Geschichte. Für seinen Auftrag, die sprachliche Vielfalt, Struktur und Verwendung der deutschen Sprache zu dokumentieren, zu archivieren und zu erforschen, hat das IDS die wichtigsten Sammlungen des Gegenwartsdeutschen aufgebaut. Im Bereich der Schriftsprache enthält das Deutsche Referenzkorpus (DeReKo) 46,9 Milliarden Wörter aus vielen verschiedenen Gattungen, darunter Zeitungen, wissenschaftliche Texte und Werke der Belletristik, aber auch aus der computervermittelten Kommunikation aus Chat und Usenet sowie Wikipedia. Im Bereich der gesprochenen Sprache bietet das Archiv für Gesprochenes Deutsch (AGD) 46 Korpora mit mehr als 4000 Stunden Audio- und audiovisuellen Aufnahmen an, die z.B. Ressourcen zu Dialekten oder „umgangssprachlichen“ Variationen sowie zur Sprache von Auswanderern nach Israel und deutschsprachigen Minderheiten in Namibia oder Russland sowie z.B. das Wendekorpus zur deutschen Wiedervereinigung oder das GeWiss-Korpus der akademischen Rede enthalten. Das FOLK-Korpus (Forschungs- und Lehrkorpus Gesprochenes Deutsch) bietet eine stratifizierte Auswahl einer großen Vielfalt an gesprochenem Deutsch in natürlichen Interaktionen.

Das IDS entwickelt ständig Werkzeuge und Schnittstellen zur Abfrage und Analyse der Korpora: Für gesprochene Korpora ist die Datenbank für Gesprochenes Deutsch (DGD) die zentrale Schnittstelle mit rund 12000 registrierten Nutzern. Für schriftliche Korpora wird COSMAS II (Corpus Search, Management, and Analysis System, entwickelt seit den 1990er Jahren) zugunsten der Korpusanalyseplattform KorAP abgelöst. KorAp ist für große, mehrfach annotierte Korpora und komplexe Suchmechanismen optimiert und unterstützt mehrere Abfragesprachen. Letztere teilen sich die gleiche Benutzerbasis von über 54000 registrierten Benutzern.Das IDS ist seit Projektbeginn an CLARIN/CLARIN-D beteiligt und hat wesentlich zu CLARINs Federated Content Search und zur Entwicklung der Virtual Collection Registry beigetragen. Darüber hinaus war es aktiv an der Entwicklung von Standards für Sammlungen beteiligt, wobei es in der Arbeitsgruppe für linguistische Annotation der International Standards Organization (ISO/TC 37/SC 4/WG 6) und in der Special Interest Group on TEI for Linguists der Text Encoding Initiative (TEI) mitwirkte. Das IDS beherbergt auch den juristischen Helpdesk von CLARIN, der rechtliche und ethische Standards für Textsammlungen entwickelt. Darüber hinaus hat es die CLARIN-Arbeitsgruppe für Deutsche Philologie betreut.

Ludwig-Maximilians-Universität (LMU) München, Bayerisches Archiv für Sprachsignale, BAS

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Contemporary Language

Sitz des BAS ist das Institut für Phonetik und Sprachverarbeitung der LMU München. Es wurde 1995 mit dem Ziel gegründet, den Zugang zu Sprachdaten und Sprachverarbeitungsdiensten sowohl für die Sprachtechnologieentwicklung als auch für die Forschung zu ermöglichen. Seitdem hat es sich zu einem Forschungszentrum für Sprachsammlungen und die entsprechende Forschungsinfrastruktur entwickelt.

Das BAS verfügt über eine eigene technische Infrastruktur innerhalb des Instituts. Es unterhält enge Beziehungen zum Linguistic Data Consortium (LDC), das an der University of Pennsylvania angesiedelt ist, und zur European Language Resources Association (ELRA). Seit 2010 ist es Mitglied von CLARIN-D, wo es auf dem Wissensgebiet der zeitgenössischen Sprachdaten tätig ist. Darüber hinaus ist das BAS ein CoreTrustSeal– zertifiziertes CLARIN-B-Zentrum, das aktiv Dienstleistungen mit dem Schwerpunkt Sprache in Forschungsinfrastrukturen anbietet.

Die vom BAS bereitgestellten Ressourcen lassen sich in drei Hauptkategorien einteilen:

  • ein Repository für Sprachdatenbanken.
  • eine Reihe von webbasierten Diensten zur Sprachverarbeitung
  • verschiedene eigenständige Tools zur Datensammlung und -analyse.

Das Repository des BAS enthält derzeit mehr als 40 Sammlungen von Sprachdaten in mehreren Sprachen (Deutsch, Englisch, Japanisch, Italienisch usw.). Diese Sammlungen wurden entweder intern oder durch industrielle oder akademische Projekte erstellt, z.B. Verbmobil, SmartKom. In den letzten Jahren wurde eine Reihe von Ressourcen, die von Dritten erstellt wurden, dem Repositorium hinzugefügt, z.B. das Gesprochene Wortkorpus für Untersuchungen zur auditiven Verarbeitung von Sprache und emotionaler Prosodie (WaSeP) und das Karl-Eberhard-Korpus aus Tübingen. Die vom BAS bereitgestellten Ressourcen sind einzigartig und wichtig für jede Forschung zur gesprochenen Sprache im In- und Ausland.

Der bekannteste Webdienst des BAS ist zweifelsohne WebMAUS, ein mehrsprachiger Aligner von Text und Sprache. Zu den weiteren Diensten gehören die Graphem-Phonem-Konvertierung, Aussprachewörterbücher, Audio-Anreicherung und Pipeline-Dienste, die vordefinierte Verarbeitungsketten für Sprachdaten bereitstellen. Zu den vom BAS entwickelten Werkzeugen gehören SpeechRecorder für skriptgesteuerte Audioaufnahmen und das EMU Speech Database Management System.

Universität des Saarlandes, SLUni, Fachrichtung Sprachwissenschaft und Sprachtechnologie

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Contemporary Language; Historical Texts

Als Kompetenzzentrum ist die SLUni spezialisiert auf Registerkorpora, multilinguale Korpora und Übersetzungskorpora. Außerdem unterhält die SLUni ein CLARIN-D-Datenzentrum mit CoreTrustSeal-Zertifizierung.

Der Schwerpunkt des Datenzentrums liegt auf multilingualen Korpora sowie Korpuswerkzeugen und mehr als 100 Datenressourcen wurden bereits im Repositorium der SLUni archiviert. Die Ressourcen sind über das Virtual Language Observatory auffindbar und eine Auswahl der archivierten Korpora ist zudem über die Federated Content Search durchsuchbar.

Hiervon sind im Zusammenhang mit Text+ zwei diachrone Korpora für das Englische hervorzuheben:

  • Royal Society Corpus (RSC)
    Das RSC beinhaltet wissenschaftliche Publikationen aus den Jahren 1665 bis 1920, die in den Proceedings der Royal Society of London veröffentlicht wurden. Das Korpus wurde umfangreich auf Text-, Satz- und Tokenenbene annotiert und umfasst 78,6 Millionen Token.
  • Old Bailey Corpus (OBC)
    Das Korpus dokumentiert gesprochenes Englisch aus zwei Jahrhunderten (1720 bis 1913) und basiert auf Verhandlungsprotokollen des zentralen Strafgerichtshofs in London. Die Texte des OBC umfassen 24,4 Millionen Token und wurden mit soziobiografischen und pragmatischen Annotationen versehen.

Aufgrund ihrer freien Lizenz, Größe und breiten Nutzung in der Forschung sind diese Datenressourcen für eine Übernahme in Text+ besonders relevant. Weiterhin beinhaltet das Repositorium der SLUni Übersetzungskorpora, darunter EuroParl-UdS und EPIC-UdS, sowie eine Reihe slawischer Ressourcen.

Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB)

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Unstructured Text (Coord.)

Mit ihrem derzeit rund 9 Millionen Medieneinheiten umfassenden Bestand zählt die SUB zu den größten Bibliotheken in Deutschland. Von besonderem Interesse für die geisteswissenschaftliche Forschung sind mehrere digitale Textsammlungen des Göttinger Digitalisierungszentrums. Die SUB koordiniert das Digitalisierungsprojekt VD18 (Verzeichnis der im deutschen Sprachraum erschienenen Drucke des 18. Jahrhunderts) und ist Partner im VD17, das nicht nur digitalisierte Drucke in deutscher Sprache, sondern auch in vielen anderen europäischen Sprachen und darüber hinaus enthält. Die Sammlungen des VD17 und VD18 enthalten seltene Druckwerke wie literarische Anthologien, Reisezeitschriften, Chroniken, religiöse oder wissenschaftliche Dokumente. Der Schwerpunkt auf Reisezeitschriften, wissenschaftliche Dokumente und Druckerzeugnisse in den Textsammlungen der SUB bildet eine Brücke zu anderen disziplinär relevanten Sammlungen wie Americana (Literatur über Nordamerika), Itineraria (Reisezeitschriften aus dem 16. bis 20. Jahrhundert), Antiquitates & Archaeologica, Wissenschaftsgeschichte und wissenschaftliche Zeitschriften (18. bis 20. Jahrhundert). Diese Sammlungen sind vor allem für die Philologie, Kultur und Kunst, Philosophie und Geschichte, Anthropologie, Religionswissenschaft, Politikwissenschaft und Medienwissenschaften relevant.

Diese Textsammlungen (über 13 Millionen digitalisierte Seiten) liegen in Bilddateien vor (TIFF, JPG, PDF) und stellen wertvolles Material für maschinelle Lernverfahren zur optischen Zeichenerkennung (OCR) und andere Bildverarbeitungsverfahren dar. Sie werden zum Teil im Projekt Optical Character Recognition Development (OCR-D) verwendet, an dem die SUB in Zusammenarbeit mit der GWDG beteiligt ist. Für die kommenden Jahre ist geplant, auch für die älteren Drucke maschinenlesbare Volltexte zu erreichen (VD17, VD18). Die Sammlung der wissenschaftlichen Zeitschriften (17.-21. Jh., verfügbar in DigiZeitschriften) besteht überwiegend aus digitalisierten Volltexten. Diese Sammlung enthält vor allem interessantes und anspruchsvolles Material multimodaler (Text-Bild, performativ) und mehrsprachiger Texte. Für alle digitalisierten Textsammlungen stellt die SUB standardisierte Metadaten (bibliographische und strukturelle Metadaten, z.B. IIIF-Manifest, METS) zur Verfügung.

Neben dem Göttinger Digitalisierungszentrum pflegt und das DARIAH-DE Coordination Office an der SUB das TextGrid Repository und entwickelt dieses weiter. Es ist eine anerkannte und wertvolle Ressource für die Literaturwissenschaft (Philologie, Komparatistik), und baut es kontinuierlich aus. Es ist ein CoreTrustSeal-zertifiziertes, gemeinschaftskuratiertes Repository und offen für die Aufnahme neuer Daten (in verschiedenen Sprachen). Das TextGrid Repository enthält die Digitale Bibliothek mit Titeln der Weltliteratur von mehr als 600 Autoren sowie weitere Textsammlungen in der standardisierten Extensible Markup Language der Text Encoding Initiative (TEI-XML).

Im Hinblick auf das TextGrid Repository erwägt die COST-Aktion „Distant Reading for European Literary History“, mehrere Sammlungen von Romanen, die zwischen 1840 und 1920 erstmals in mindestens sechs verschiedenen europäischen Sprachen veröffentlicht und in TEI-XML kodiert wurden, beizusteuern.

Für die Indologie enthält das Göttinger Register für elektronische Texte in indischen Sprachen (GRETIL) eine der wertvollsten fächerrelevanten frei verfügbaren Volltextressourcen in Sanskrit, Pali, Prakrit, Neuindisch-Arier, Dravidischen Sprachen, Altjavanisch und Tibetisch.

All diese Beispiele für die Digitalisierung, Kodierung und Archivierung digitaler Textsammlungen stützen sich auf fundierte Fachkenntnisse in den Informationswissenschaften und digitalen Geisteswissenschaften, um eine nachhaltige digitale Infrastruktur für die Geisteswissenschaften auf nationaler und europäischer Ebene aufzubauen (DARIAH ERIC, CLARIAH-DE, SSHOC).

Universität Duisburg-Essen (UniDUE)

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Contemporary Language

Die Datenressourcen der UniDUE innerhalb von Text+ umfassen Sammlungen gesprochener Sprache, wie sie in Manuskripten und Protokollen des politischen Diskurses enthalten sind. Das charakteristische Korpus des PolMine-Projekts ist eine digitale Sammlung von Parlamentsdebatten im Deutschen Bundestag (Korpus GermaParl). Es ist eine treibende Kraft für textbasierte Forschung in der Politikwissenschaft zu Policy und Politik. Da die in Duisburg erstellten Sprachressourcen linguistisch annotiert sind und sich an die Richtlinien der Text Encoding Initiative (TEI) halten, sind sie auch für die sprachwissenschaftliche und zeitgeschichtliche Forschung sehr relevant. Derzeit werden die Daten über verschiedene Langzeitrepositorien sowie über die Webumgebung des Projekts verbreitet.

Ergänzend zu den Sammlungen bietet die UniDUE zugehörige Software-Tools an. Das polmineR-Paket, das in der statistischen Programmiersprache R implementiert und über das Comprehensive R Archive Network (CRAN) verfügbar ist, gewährleistet, dass eine Umgebung für die Analyse von Parlamentsdebatten funktional und vollständig interoperabel ist. Werkzeuge zur Integration der Analyse der parlamentarischen Rede, einschließlich interaktiver Visualisierungen, sind von Anfang an verfügbar und können leicht an die Anforderungen einzelner Forschungsprojekte angepasst werden. Das PolMine-Projekt ist in einer sich entwickelnden mehrsprachigen Forschungsgemeinschaft zur parlamentarischen Lautsprache sehr aktiv. Mitglieder des Teams sind an europäischen Kooperationen zur Bereitstellung parlamentarischer Daten für die Forschung in der Politik- und Sprachwissenschaft (Parla-CLARIN) beteiligt.

Universität Hamburg (UniHH), Hamburger Zentrum für Sprachkorpora (HZSK)

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Contemporary Language

Das HZSK ist am Institut für Germanistik im Fachbereich Sprache, Literatur und Medien der Universität Hamburg angesiedelt. Es bietet eine institutionelle Basis, um die nachhaltige Nutzbarkeit sprachwissenschaftlicher Primärforschungsdaten über zeitlich befristete Forschungsprojekte hinaus zu gewährleisten. Als ein Zusammenschluss von Mitgliedern verschiedener Fakultäten und Institutionen der Universität Hamburg unterstützt das HZSK die Konsistenz und Koordination computergestützter empirischer Forschung und Lehre der Sprachwissenschaft sowie der an die Universität Hamburg angegliederten Nachbardisziplinen über die Projektlaufzeiten hinaus.

Das HZSK hat in den letzten zehn Jahren zahlreiche Projekte aus verschiedenen Fachbereichen der Universität Hamburg zusammengeführt und koordiniert. Die Forschungsdaten aus diesen Projekten wurden kuratiert und im HZSK Repository einer breiten Nutzergemeinschaft zur Verfügung gestellt. Diese digitale Forschungsinfrastruktur wurde unter Berücksichtigung von Standards und Best Practices der digitalen Forschung entwickelt und mit einem CoreTrustSeal zertifiziert.

Darüber hinaus arbeitet das HZSK eng mit dem neu gegründeten Zentrum für nachhaltiges Forschungsdatenmanagement (FDM) an der Universität Hamburg zusammen. Das FDM hat sein Repositorium 2019 in Betrieb genommen und wird in Zukunft auch Daten aus dem HZSK-Repositorium sammeln können. In Zusammenarbeit mit dem FDM wird das HZSK weiterhin als Kompetenzzentrum fungieren, das bei der Koordination und Kuratierung von Forschungsdaten berät und Schulungen, z.B. zu digitalen Nutzertools, anbietet. Das Repositorium des HZSK beherbergt mehr als 50 Korpora, die mehrheitlich dem thematischen Bereich der mehrsprachigen mündlichen und schriftlichen Daten sowie Daten aus weniger verbreiteten oder gefährdeten Sprachen angehören. Neben einer Vielzahl von (Kinder-)Spracherwerbskorpora und anderen Korpora, die sich auf einzelne Aspekte der Mehrsprachigkeit konzentrieren, werden weitere hochrelevante Themen zu den gesellschaftlichen Aspekten der Mehrsprachigkeit abgedeckt, z.B. durch die Korpora Dolmetschen im Krankenhaus (DiK) und die Community Interpreting Database (ComInDat). Durch Datendepots aus abgeschlossenen externen Projekten in Zusammenarbeit mit dem HZSK wächst die Sammlung stetig an, mit anstehenden Depots wie Korpora der mehrsprachigen Kommunikation in Institutionen (z.B. Schulen, Unternehmen, NGOs).

Universität zu Köln (UniK), Data Center for the Humanities (DCH)

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Contemporary Language

Das DCH ist ein Kompetenzzentrum für nachhaltiges Forschungsdatenmanagement (FDM) in den Geisteswissenschaften. Die UniK ist als Forschungsstandort im Bereich Digital Humanities/eHumanities international sichtbar. Als Fakultätseinrichtung zeichnet sich das DCH durch eine große Nähe zur Forschung aus und ist aktiv in die Lehre in den einschlägigen Studiengänge der Digital Humanities und der (Sprachlichen-)Informationsverarbeitung an der Universität zu Köln eingebunden. Das DCH ist ein CLARIN-Zentrum und Teil des akkreditierten verteilten CLARIN Knowledge-Centre für sprachliche Vielfalt und Sprachdokumentation. Als Forschungsdatenzentrum der Philosophischen Fakultät übernimmt das DCH die Verantwortung für die institutionelle Sicherung, Bereitstellung und Langzeitarchivierung aller ihr anvertrauten digitalen Ressourcen. Das Zentrum bietet Datenarchivierungs- und Publikationsdienste an, insbesondere für audiovisuelle Daten und lexikalische Ressourcen. Das DCH arbeitet eng mit dem Rechenzentrum der Universität zu Köln zusammen und nutzt dessen Infrastruktur. Als Kompetenzzentrum für Forschungsdatenmanagement sind FDM-Beratung und Metadaten besondere Kompetenzfelder des DCH. Darüber hinaus legt das DCH einen besonderen Schwerpunkt auf Sprachdaten aus dem globalen Süden und auf die Zusammenarbeit mit Institutionen und Wissenschaftlern aus dem globalen Süden. Das Language Archive Cologne (LAC) ist ein Repositorium für audiovisuelle Daten mit Schwerpunkt auf Sprachaufnahmen. Das LAC ist Mitglied des Digital Endangered Languages and Musics Archives Network (DELAMAN) und verfügt über besondere Expertise bei Daten aus gefährdeten und außereuropäischen Sprachen sowie bei Aufnahmen außereuropäischer mündlicher Literatur. Das LAC ist in die CLARIN-Infrastruktur integriert und entspricht den technischen Standards dieser europäischen Forschungsdateninfrastruktur. Das DCH verfügt über umfangreiche Erfahrung und Expertise in lexikalischen Ressourcen für außereuropäische Sprachen. Mit Kosh bietet das DCH eine generische Infrastruktur zur Veröffentlichung beliebiger XML-basierter lexikalischer Ressourcen über standardisierte Application Programming Interfaces (APIs) an. Die Sanskrit-Wörterbücher Cologne South Asian Languages and Texts (C-SALT) sind die größte Ressource für die klassische südasiatische Sprache Sanskrit und das Kritische Pāli Wörterbuch ist eine der größten lexikalischen Ressourcen für diese buddhistische liturgische Sprache. Die vom DCH zur Verfügung gestellten Representational State Transfer (REST) und GraphQL APIs ermöglichen die Verbindung der Ressourcen mit Texteditionen oder Sprachkorpora.

Universität Tübingen (UniTÜ)

Datenzentrum in folgenden Clustern der Datendomäne Sammlungen: Contemporary Language (Coord.); Historical Texts

Die Datenressourcen der UniTÜ umfassen Korpora für gesprochene Sprache und geschriebene Texte, die auf verschiedenen Ebenen der linguistischen Annotation von Morphologie, Syntax und Semantik annotiert werden. Solche Korpora sind für die datengetriebene Forschung sowohl in der theoretischen als auch in der Computerlinguistik unverzichtbar. Die Annotationen umfassen verschiedene grammatikalische Rahmen und halten sich an die in der Gemeinschaft weit verbreiteten Kodierungsstandards sowie an die Kodierungsstandards der International Standards Organization (ISO). Diese Ressourcen sind im TALAR-Datenrepository untergebracht, das vom CTS zertifiziert wurde und standardisierte Protokolle für den Daten-Ingest von externen Datenressourcen entwickelt hat.

Das Tübinger Data and Competence Centre beherbergt eine Sammlung von weit verbreiteten syntaktisch annotierten Korpora, die so genannten TüBa-Baumbanken für Deutsch, Englisch und Japanisch. Darüber hinaus enthält das Tübinger Archiv für Sprachressourcen (TALAR) eine große Anzahl extern entwickelter Treebanks im Rahmen der Universal Dependencies. Alle sprachlich annotierten Korpora der UniTÜ können mit der Webanwendung Tübingen Annotated Data Retrieval Application (TüNDRA) durchsucht und visualisiert werden und sind auch über die CLARIN Federated Content Search zugänglich. Zusätzlich zu den sprachlich annotierten Korpora bietet die UniTÜ Datendienste in Form von Vektorraum-Wortdarstellungen und zugehörigen Softwaretools an. Darüber hinaus bietet sie Softwaredienste für die inkrementelle Annotation externer Textkorpora über die virtuelle Forschungsumgebung WebLicht an. WebLicht ermöglicht u.a. die automatische Anreicherung von Textkorpora mit einer Names-Entity-Erkennung auf der Basis von Deep-Learning-Tools und kann somit als Werkzeug für die automatische Anreicherung unstrukturierter Daten und die anschließende Verknüpfung mit Autoritätsdaten sowie verknüpften offenen Daten genutzt werden.

Berlin-Brandenburgische Akademie der Wissenschaften, (BBAW), Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) und Zentrum Grundlagenforschung Alte Welt (RCAW)

Datenzentrum in folgenden Clustern der Datendomäne Lexikalische Ressourcen: German Dictionaries in a European Context; Non-Latin Scripts

Das ZDL an der BBAW wird umfassende lexikalische Ressourcen für die deutsche Sprache in zeitgenössischer und historischer Form zur Verfügung stellen, die einheitlich strukturiert sind, den Standards der Text Encoding Initiative (TEI) entsprechen und über eine gemeinsame Lemma-Liste miteinander verbunden sind. Diese Liste ist frei verfügbar und wird als Drehscheibe für die Integration anderer Ressourcen in die Text+ Datendomäne Lexikalische Ressourcen dienen. Das Portfolio des ZDL umfasst außerdem große zeitgenössische Textkorpora, die mit den lexikalischen Ressourcen des Digitales Wörterbuch der deutschen Sprache (DWDS) verknüpft sind, darunter große Referenzkorpora und große Webkorpora. Auf der Grundlage dieser Korpora werden Dienste für lexikometrische Statistiken bereitgestellt, darunter Zeitreihen für lexikalische Items und Wortvorkommensstatistiken sowohl aus synchroner als auch aus diachroner Perspektive. Durch ihre Beteiligung am Projekt e-Humanities – Zentrum für Historische Lexikographie (ZHistLex) hat die BBAW einen Prototyp für die Integration verschiedener Sprachstufenwörterbücher entwickelt, die an anderen Akademien erstellt werden (Althochdeutsch, Mittelhochdeutsch und Frühneuhochdeutsch). Das Portal und die Suchmöglichkeiten über Application Programming Interfaces (APIs) werden dazu beitragen, diese Ressourcen für die Untersuchung von langwierigen Sprachänderungen verfügbar zu machen. Der Software-Dienst Cascaded Analysis Broker (CAB) zur Rechtschreibnormalisierung wird die Vernetzung historischer Wörterbücher sowie die Verknüpfung von Wörterbüchern mit historischen Textressourcen verbessern. Soweit es die urheberrechtlichen Beschränkungen erlauben, sind die im BBAW CLARIN-Zentrum gehosteten Ressourcen über dwds.de und zdl.org einer größeren Öffentlichkeit, einschließlich wissenschaftlicher Nutzerinnen und Nutzer, zugänglich. Mit mehr als 1 Million Aufrufen pro Monat sind sie die meistbesuchten wissenschaftlichen Websites für lexikalische Ressourcen in Deutschland.

Das Zentrum RCAW umfasst neun bedeutende Langzeitprojekte, die digitale Textdaten in verschiedenen alten Sprachen und Schriften produzieren. Einige von ihnen befassen sich mit griechischen Manuskripten, wie zum Beispiel

und einige mit dokumentarischen Quellen aus der klassischen Welt, wie zum Beispiel

sowie mit der europäischen Rezeption antiker Objekte seit der frühen Neuzeit, wie z.B.

Die Datenbank Thesaurus Linguae Aegyptiae ist die weltweit führende Datenquelle zu (prä-koptischen) altägyptischen Lexemen und transliterarischen Texten. Als Publikationsplattform, die vom Projekt „Struktur und Transformation im Wortschatz der ägyptischen Sprache“ im Internet zur Verfügung gestellt wird, bietet sie das weltweit größte elektronische Korpus (1,4 Millionen Token) ägyptischer Texte, die mit Übersetzungen, Kommentaren und Metadaten annotiert sind. Es ist durchgehend mit einem umfassenden Lexikon der ägyptischen Sprache in ihren diachronen Phasen lemmatisiert. Die Daten sind unter einer Open-Access-Lizenz verfügbar. Sie werden weltweit von mehr als 7500 registrierten Benutzern genutzt. Die Website sowie eine API, die implementiert werden soll, werden den Zugang zu diesen Daten sowohl für akademische Nutzer als auch für die breite Öffentlichkeit erleichtern.

Leibniz-Institut für Deutsche Sprache (IDS), Abteilung für Lexikalische Studien (IDS-Lexik)

Datenzentrum in folgenden Clustern der Datendomäne Lexikalische Ressourcen: German Dictionaries in a European Context; Non-Latin Scripts

Die Wörterbücher des IDS sind eine einzigartige Quelle für die akademische Lexikographie des Deutschen, die international auf Interesse stößt. Mit ihren unterschiedlichen thematischen und inhaltlichen Schwerpunkten (Neologismen, Diskurswortschatz, Fremdwörter, Lehnwörter, Kollokationen, Verbvalenz, grammatische Wörter etc.) sind sie eine notwendige wissenschaftliche Ergänzung zu weniger spezialisierten Angeboten (Duden-Wörterbücher, Zentrum für Digitale Lexikographie der deutschen Sprache). Darüber hinaus sind die lexikographischen Portale des IDS beispielhaft für neue Wege in der Visualisierung und Verarbeitung lexikographischer Daten und für experimentellere Formate, wie beispielsweise lexikalische Daten in Verbindung mit statistischen Korpusanalysen zu spezifisch eingeschränkten Sachgebieten (z.B. Neologismen). Sie befassen sich auch mit aktuellen Themen wie lexikalischen Veränderungen in der Coronakrise. Die lexikalischen Ressourcen des IDS sind alle online über die Portale Online-Wortschatz-Informationssystem Deutsch (OWID, OWIDplus), Lehnwortportal Deutsch und Grammatisches Informationssystem (grammis) zugänglich. Zusätzlich zu diesen lexikalischen Ressourcen trägt das IDS zu Text+ mit international anerkannter Expertise in der Erforschung der Wörterbuchnutzung und in der neuartigen (z.B. graphbasierten) Speicherung und Visualisierung lexikalischer Daten bei. Im Jahr 2019 wurden die IDS-Wörterbuchplattformen von mehr als 25.000 verschiedenen Benutzern genutzt.

Sächsische Akademie der Wissenschaften zu Leipzig (SAW)

Datenzentrum in folgenden Clustern der Datendomäne Lexikalische Ressourcen: German Dictionaries in a European Context; Born-Digital Lexical Resources; Non-Latin Scripts

Die SAW betreibt eine Vielzahl von Wörterbuchprojekten, die sich mit historischen und zeitgenössischen lexikalischen Daten befassen. Im Bereich der lexikalischen Daten in digitaler Form ist die Leipzig Corpora Collection (LCC) ein wichtiger Anbieter einsprachiger Wörterbüchern für Hunderte von Sprachen, wobei der Schwerpunkt auf statistisch fundierten Textanalysen und der Förderung von Sprachen mit weniger Ressourcen liegt. Das Projekt, das ursprünglich von der Universität Leipzig ins Leben gerufen wurde, wird von der SAW weitergeführt. Die Ressourcen der SAW umfassen historische und zeitgenössische lexikalische Daten für verschiedene Stadien der deutschen Sprache und eine große Sammlung einsprachiger Wörterbücher, die auf öffentlich zugänglichem Textmaterial basieren, das seit den 1990er Jahren gesammelt wurde. Gegenwärtig enthält die LCC mehr als 400 Korpora und Wörterbücher in mehr als 250 Sprachen. Die Daten werden über ein Webportal und RESTful-Webdienste (REST steht für Representational State Transfer) zur Verfügung gestellt, von denen viele in die CLARIN-Infrastruktur integriert sind. Die LCC ist zusammen mit ihrem Teilprojekt Deutscher Wortschatz eine der wichtigsten Online-Ressourcen im Bereich der Lexikographie moderner Sprachen und wirkt über den akademischen Bereich hinaus. Es stellt zuverlässige Text- und Lexikografiedaten für Hunderte von Sprachen zur Verfügung, die dann als Schulungsmaterial für etablierte Werkzeuge zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) wie Apache OpenNLP oder als Online-Nachschlagewerk (z.B. in Projekten wie Wiktionary) dienen. Die LCC legt einen starken Schwerpunkt auf die Verbesserung der Verfügbarkeit digitaler Ressourcen für unterversorgte Sprachen. In Zusammenarbeit mit externen Sprachexperten unterstützt sie die Vorbereitung und das Hosting lexikalischer Datensätze in einer modernen Forschungsumgebung. Die LCC ist auch aktiv in der Verwendung, Standardisierung und Anpassung von Linked-Data-Formaten für lexikalische Ressourcen.

Universität zu Köln (UniK), Data Center for the Humanities (DCH)

Datenzentrum in folgenden Clustern der Datendomäne Lexikalische Ressourcen: Born-Digital Lexical Resources; Non-Latin Scripts

Das DCH in Köln ist ein Kompetenzzentrum für nachhaltiges Forschungsdatenmanagement (FDM) in den Geisteswissenschaften. Es ist ein zertifiziertes CLARIN-Zentrum und Teil des akkreditierten verteilten CLARIN Knowledge-Centre für sprachliche Vielfalt und Sprachdokumentation. Das DCH verfügt über umfangreiche Erfahrung und Expertise im Bereich lexikalischer Ressourcen für außereuropäische und alte Sprachen. Die Sanskrit-Wörterbücher Cologne South Asian Languages and Texts (C-SALT) sind beispielsweise die größte Ressource für die klassische südasiatische Sprache Sanskrit und das Kritische Pāli Wörterbuch ist eine der größten lexikalischen Ressourcen für diese buddhistische liturgische Sprache. Die vom DCH zur Verfügung gestellten Representational State Transfer (REST) und GraphQL APIs ermöglichen die Verbindung der Ressourcen mit Texteditionen oder Sprachkorpora. Die Kosh-Wörterbuchserver-Infrastruktur bietet eine generische Infrastruktur zur Veröffentlichung beliebiger XML-basierter lexikalischer Ressourcen über standardisierte APIs. Im Laufe von Text+ wird die DCH diese Ressourcen zur Verfügung stellen und die oben genannten APIs weiterentwickeln. Das Hauptaugenmerk der DCH in Text+ liegt auf nicht-lateinischen Skripten. Die DCH trägt jedoch zum Cluster Born-Digital Lexical Resources mit einer (multimodalen) lexikalischen Datenbank für Daten aus Feldforschungsstudien bei (Spracharchiv Köln).

Universität Trier (UniTR), Trier Center for Digital Humanities (TCDH)

Datenzentrum in folgenden Clustern der Datendomäne Lexikalische Ressourcen: German Dictionaries in a European Context

Das TCDH verfügt über eine mehr als zwanzigjährige Erfahrung in der Planung, Koordination und Durchführung von Projekten in den Bereichen Volltextdigitalisierung, standardisierte Datenkodierung und digitale Publikation von Lexika und Referenzwerken. Ein besonderer Schwerpunkt liegt auf der Modellierung, Erschließung und Bereitstellung wichtiger historischer Wörterbücher. Zahlreiche Projekte am TCDH haben digitale Datenbestände u.a. für die Erstausgabe und Überarbeitung des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm, die Mittelhochdeutschen Zentralwörterbücher, das Althochdeutsche Wörterbuch, die Wörterbücher der westmitteldeutschen Regionalsprachen und das Goethe-Wörterbuch erstellt. Die metasprachliche, TEI-konforme Kodierung der Daten ermöglicht eine hochspezifische, sogar schlüsselwortunabhängige Recherche. Sie sind im Rahmen der Plattform des Trierer Wörterbuchnetzes (www.woerterbuchnetz.de) über offene Anwendungsschnittstellen miteinander verknüpft. Das TCDH hat auf dem Gebiet der digitalen Lexikographie ein dichtes nationales und internationales Netzwerk aufgebaut und kooperiert mit allen deutschen Akademien der Wissenschaften. Insbesondere ist das TCDH der einzige deutsche Partner im europäischen Verbundprojekt ELEXIS (European Lexographic Infrastructure), in dessen Rahmen ein offener, auf Standards basierender Rahmen für die Online-Publikation von Wörterbüchern und Nachschlagewerken entwickelt wird.

Universität Tübingen (UniTÜ)

Datenzentrum in folgenden Clustern der Datendomäne Lexikalische Ressourcen: Born-Digital Lexical Resources

Die lexikalischen Ressourcen, die vom Tübinger Daten- und Kompetenzzentrum angeboten werden, sind eng mit anderen lexikalischen und textuellen Ressourcen, die in Text+ vertreten sind, verbunden und mit ihnen interoperabel. Das Valenzwörterbuch der deutschen Verben wurde aus großen Textkorpora abgeleitet und ist daher mit Korpusdaten verknüpft. GermaNet ist eine lexikalische Datenbank der Wortbedeutungen für zeitgenössiche deutsche Substantive, Verben und Adjektive, die über einen interlingualen Index direkt mit Wortnetzen von mehr als fünfzig Sprachen der Welt verbunden ist. Neben anderen Wortnetzen ist GermaNet mit anderen digital entstandenen Ressourcen wie Wikipedia und Wiktionary verknüpft. Zusammengenommen bieten sie eine prinzipielle Grundlage für die Beurteilung lexikalischer Ähnlichkeit und Unähnlichkeit. Diese beiden Begriffe sind sowohl für die psycho- und neurolinguistische Forschung als auch für die Themenmodellierung und die semantische Suche in einem breiten Spektrum von Disziplinen, das von Anwendungen in der Informatik bis hin zur literaturwissenschaftlichen Forschung reicht, unerlässlich. Hier sind z.B. Autorenidentifizierung und Genreklassifizierung sowie die semantische Suche nach Wörterbuchdaten oder nach großen Metadatensammlungen zu nennen. Neben dem akademischen Bereich ist GermaNet auch für industrielle Anwendungen sehr gefragt. Darüber hinaus bietet die Verknüpfung der Wortsinne über semantische Beziehungen einen idealen Ausgangspunkt für die Konvertierung von Wortnetzdaten in verknüpfte offene Datenformate und für die einfache Integration in Wissensgraphen. Diese Datenformate werden nicht nur in Text+, sondern auch in der Nationalen Forschungsdateninfrastruktur (NFDI) insgesamt eine zentrale Rolle spielen. Dementsprechend wird das Mapping von GermaNet auf verknüpfte offene Daten und Wissensgraphen einen erheblichen Mehrwert für Text+ bieten und eine direkte Datenbrücke zu anderen NFDI-Konsortien bilden.

Akademie der Wissenschaften und der Literatur, Mainz (AdWMZ)

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Ancient and Medieval Texts

Mit einem starken Fokus auf digitale Methoden und Infrastrukturen in den Geistes- und Kulturwissenschaften verbindet die AdWMZ langfristige Grundlagenforschung in Sprache und Literatur mit Forschung in Musikwissenschaft, Kunstgeschichte und Archäologie.

Die Digitale Akademie (DA), die Forschungsabteilung Digital Humanities (DH) der AdWMZ, ist an einem breiten Spektrum digitaler Editionen beteiligt, die sich mit Textquellen und -materialien von der Antike bis zur Avantgarde beschäftigen. Die Forschungsaktivitäten der DA konzentrieren sich auf die Datenmodellierung und die Erstellung von Webportalen, nachhaltiges Research Software Engineering, aktuelle Webtechnologien und die Anwendung von Linked Open Data (LOD) und Graphentechnologien zur Erschließung neuer Analyse- und Nachnutzungsszenarien in den Text- und Kulturwissenschaften. Die AdWMZ ist die Institution, an der NFDI4Culture angesiedelt ist, und fungiert als Brücke zwischen Forschungsgemeinschaften, die sich mit text- und objektbezogenen Editionen und Datenpublikationen befassen. Darüber hinaus ist die AdWMZ eine der mitbegründenden Institutionen des DH-Masterstudiengangs in Mainz und trägt mit einer DH-Professur, regelmäßigen DH-Vorlesungen und einer internationalen DH-Sommerschule zur Aus- und Weiterbildung des wissenschaftlichen Nachwuchses bei.

Darüber hinaus trägt die AdWMZ mit zahlreichen digitalen Editionen, Textsammlungen und Softwareanwendungen zu Text+ bei. Thematisch reichen diese von großen mittelalterlichen und frühneuzeitlichen Textkorpora wie der Regesta Imperii, den Augsburger Baumeisterbüchern und den Deutschen Inschriften bis hin zu Editionen mit Schwerpunkt auf Quellen des 19. und 20. Jahrhunderts wie DER STURM und der Hans Kelsen Werke. Darüber hinaus hostet und kuratiert die AdWMZ übergreifende Forschungsinformationssysteme wie AGATE (ein europäisches Portal für die Akademien der Wissenschaften) oder das Portal Kleine Fächer (zusammen mit der Johannes Gutenberg-Universität). Technisch gesehen wird die AdWMZ Text+ Lösungen für die Erstellung integrierter Editions- und Webportale, Annotationssoftware für graphbasierte digitale Editionen und LOD-Anwendungen zur Verfügung stellen, die eine semantische Anreicherung und Verknüpfung digitaler wissenschaftlicher Editionen ermöglichen.

Werkzeuge und Ressourcen (Auswahl):

Software:

Ressourcen (Digitale Editionen und Portale):

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Ancient and Medieval Texts; Early Modern, Modern, and Contemporary Texts

Seit rund 20 Jahren plant, realisiert und hostet die Digital Humanities-Abteilung TELOTA – IT/DH (TELOTA: The Electronic Life Of The Academy) der BBAW zahlreiche digitale wissenschaftliche Editionen aus verschiedenen Disziplinen wie Philologie im Allgemeinen, Philosophie, Theologie und Geschichte (insbesondere Wissenschaftsgeschichte). Ein besonderer Schwerpunkt liegt dabei auf der Edition von Korrespondenzen.

Neben der Erarbeitung digitaler Editionen liegt der Fokus der TELOTA-Abteilung auf der Entwicklung von Forschungssoftware. In diesem Zusammenhang widmet sich die Abteilung vor allem dem Beitrag zu Standards für die Textkodierung, der Entwicklung benutzerfreundlicher Werkzeuge für die Erstellung digitaler Editionen, dem Design von Application Programming Interface (API) und nachhaltigen Publikationslösungen.  TELOTA beteiligt sich aktiv an der Entwicklung und Anpassung von Textkodierungsstandards auf der Grundlage der Empfehlungen der Text Encoding Initiative (TEI) und des DTA-Basisformats (DTABf). Ein zentrales Werkzeug mit dem die Geisteswissenschaftlerinnen und Geisteswissenschaftler der BBAW digitale Editionen erstellen, ist die benutzerfreundliche Redaktionssoftware ediarum, die seit 2012 von TELOTA entwickelt wird. Eine weitere zentrale Anwendung von TELOTA ist correspSearch, ein Webdienst zur Verknüpfung wissenschaftlicher Korrespondenzausgaben.

Ressourcen und Tools (Auswahl):

Software:

  • correspSearch (Webservice zur Vernetzung von Briefeditionen)
  • ediarum (darunter ediarum.BASIS, ediarum.WEB und ediarum.PDF)
  • rasmify (Tool zur Umgang mit arabischen Schriftzeichen bzw. Diakritika)

Die BBAW engagiert sich über ihre Mitarbeiterinnen und Mitarbeiter aktiv in verschiedenen nationalen und internationalen Vereinigungen, die die Datendomäne Editionen von Text+ betreffen, darunter die Arbeitsgruppe eHumanities der Union der deutschen Akademien der Wissenschaften, die Arbeitsgruppe Research Software Engineering des Fachverbandes Digital Humanities im deutschsprachigen Raum (DHd), die TEI-Fachgruppe „correspondence, das Digital Classicist-Seminar (Berlin) und das Institut für Dokumentologie und Editorik (IDE).

Darmstadt Cooperation (DACo): Technische Universität Darmstadt, Universitäts- und Landesbibliothek Darmstadt, Hochschule Darmstadt

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Early Modern, Modern, and Contemporary Texts

Die DACo besteht aus drei Partnern mit einer langen Tradition institutioneller und persönlicher Zusammenarbeit in Forschung, Infrastrukturentwicklung, Lehre und Ausbildung auf dem Gebiet der Textwissenschaft, der digitalen Editionen und darüber hinaus: dem Institut für Sprach- und Literaturwissenschaft, der Universitäts- und Landesbibliothek Darmstadt (USLDA), beide an der Technischen Universität Darmstadt (TUDa), und dem Lehrstuhl für Informationswissenschaft/Digitale Bibliothek an der Hochschule Darmstadt. Sie gehören zu den Gründern von TextGrid und sind Teil des Konsortiums DARIAH-DE bzw. CLARIAH-DE. Die Darmstädter Kooperations-Hochschulen haben einen Vertrag über eine zukünftige enge Zusammenarbeit bei kooperativen Dissertationen unterzeichnet, der eine gemeinsame Betreuung des wissenschaftlichen Nachwuchses ermöglicht. Die Universitäts- und Landesbibliothek betreibt das institutionelle Repositorium für alle Forschungsdaten, die an der Technischen Universität entstehen oder mit denen an der Technischen Universität gearbeitet wird, und hat 2019 das Zentrum für digitale Editionen in Darmstadt (ZEiD) gegründet. Das ZEiD betreibt und unterstützt eine Reihe von digitalen Editionen, darunter Langzeitprojekte, die im Rahmen des Akademienprogramms gefördert werden, Projekte, die von der Deutschen Forschungsgemeinschaft (DFG) finanziert werden, sowie Kleinprojekte von Einzelforschenden ohne Förderung und andere Projekte mit besonderem Schwerpunkt auf Briefen. Die Mitglieder sind am Konsortium der Text Encoding Initiative und am Projekt Hessische Forschungsdateninfrastrukturen (HeFDI) beteiligt oder engagieren sich in der Arbeitsgruppe eHumanities der Union der deutschen Akademien der Wissenschaften. Seit fast 20 Jahren entwickeln sie Master- und Bachelor-Studiengänge, in denen Textwissenschaft, Forschungsdatenmanagement, Datenwissenschaft und Datenkompetenz eine zentrale Rolle spielen, und haben zahlreiche Digital Humanities-Workshops organisiert.

Herzog August Bibliothek Wolfenbüttel (HAB)

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Ancient and Medieval Texts

Die HAB ist eine außeruniversitäre Studien- und Forschungseinrichtung für die europäische Kulturgeschichte des Mittelalters und der frühen Neuzeit. Als Bibliothek verwahrt sie die seit dem 16. Jahrhundert von den Herzögen aus der Wolfenbütteler Linie des Hauses Braunschweig-Lüneburg zusammengetragenen Sammlungen. Sie umfassen etwa 11.800 Handschriften, davon 2700 aus dem Mittelalter, etwa 400.000 vor 1830 gedruckte Bücher, mehr als 20.000 Druckgrafiken und andere Spezialsammlungen. Die HAB ist ein von der Deutschen Forschungsgemeinschaft (DFG) gefördertes Zentrum für Handschriftenkatalogisierung und ist Teil des Projekts für eine retrospektive Deutsche Nationalbibliothek (AG Sammlung Deutscher Drucke), in welchem sie das 17. Jahrhundert abdeckt. Die HAB digitalisiert seit vielen Jahren ihre Bestände in großem Umfang. Sie engagiert sich insbesondere für die Digitalisierung mittelalterlicher Handschriften, für die DFG-geförderte Massendigitalisierung gedruckter Bücher und für die Digitalisierung von Grafiken (Virtuelles Kupferstichkabinett). Die HAB ist Teil wichtiger Informationsinfrastrukturprojekte in Deutschland. Zusammen mit der Universitätsbibliothek Leipzig betreibt sie den Fachinformationsdienst Buch-, Bibliotheks- und Informationswissenschaft (FID BBI). Außerdem ist sie Partner in der von der DFG eingerichteten koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR-D).

Die Bibliotheksbestände ermöglichen jede Art von Forschung zur europäischen Kulturgeschichte des Mittelalters und der frühen Neuzeit. Die HAB unterstützt und organisiert diese Forschung in vielfältiger Weise: durch aktive Förderung des Austauschs und der Vernetzung internationaler Wissenschaftlerinnen und Wissenschaftler, durch Schaffung der bestmögliche Bedingungen und Unterstützung ihrer Forschung, durch Stipendien für (Post-)Doktorandinnen und Doktoranden, durch Lehrtätigkeit an Universitäten und durch eigene Forschungsprojekte auf innovativen Gebieten der Mittelalter- und Frühneuzeitforschung, die vielfach auf Drittmittel angewiesen sind. Forschungsschwerpunkte sind kulturelle Übersetzung, Wissenskulturen, Religions- und Frömmigkeitsgeschichte und Bildpolitik.

Die Forschung an der HAB ist eng mit den Entwicklungen in den Digital Humanities verbunden. Die HAB verfügt über langjährige Erfahrung in digitalem Edieren. Sie stellt eine selbst entwickelte Editionsinfrastruktur in Form der Wolfenbütteler Digitalen Bibliothek (WDB) bereit, die für zahlreiche Projekte genutzt wird. Herausragende Beispiele sind die von der DFG geförderten Langzeitprojekte zur Edition der Werke und Briefe des Reformators Andreas Bodenstein von Karlstadt, der Tagebücher von Herzog Christian II. von Anhalt-Bernburg und der Reise- und Sammlungsberichte des Kunstunternehmers Philipp Hainhofer.

Die HAB ist auch Teil des Forschungsverbunds Marbach Weimar Wolfenbüttel, der die literarische Überlieferung durch gemeinsame Forschungsprojekte und die Entwicklung eines virtuellen Forschungsraums zur Erschließung und Auswertung der digitalen Sammlungen der HAB, des Deutschen Literaturarchivs Marbach und der Klassik Stiftung Weimar erforscht. Mit der Beteiligung an der Nationalen Forschungsdateninfrastruktur (NFDI) will die HAB ihre eigene Expertise in den Digitalen Geisteswissenschaften, insbesondere in digitalen Editionen, sichtbarer machen und Teil einer persistenten digitalen Infrastruktur werden, die ihren Wissenschaftlerinnen und Wissenschaftlern wichtige forschungsnahe Dienste anbietet.

Nationale Akademie der Wissenschaften Leopoldina (Leopoldina)

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Early Modern, Modern, and Contemporary Texts

Das Zentrum für Wissenschaftsforschung (ZfW) an der Nationalen Akademie der Wissenschaften Leopoldina ist für die unabhängige wissenschaftliche Forschung an der Akademie, insbesondere zur Wissenschaftsgeschichte und Wissenschaftsreflexion, zuständig und unterhält die dafür notwendige Infrastruktur. Am ZfW werden verschiedene Aktivitäten zu einem Kompetenzschwerpunkt im Bereich der digitalen Edition zusammengefasst.

Das ZfW leitet mehrere Projekte zu hybriden und digitalen Editionen in ihrem Forschungsfeld IV: Editionen und digitale Erschließungsformen. Typische Quellen sind wissenschaftliche Korrespondenz und Publikationen sowie Sammlungen und ihre Objekte, die es zu analysieren und zu präsentieren gilt.

Zu den Projekten gehören

Ein digitales Nachhaltigkeitskonzept für das ZfW und die von ihm betreuten Projekte wurde im Frühjahr 2020 verabschiedet. Das Zentrum organisiert außerdem Veranstaltungen im Bereich der digitalen Editionen. Die “Winter School Digitale Editionen” findet seit 2019 jährlich in Kooperation mit dem Institut für Dokumentologie und Editorik statt. Darüber hinaus werden die Kompetenzen der an ZfW-Projekten beteiligten Mitarbeiterinnen und Mitarbeiter durch interne Schulungen gestärkt. Das ZfW ist in verschiedenen Arbeitsgruppen mit Bezug zu digitalen Editionen vertreten, darunter die Arbeitsgruppe Zeitungen und Zeitschriften des Fachverbandes Digital Humanities im deutschsprachigen Raum (DHd) sowie der Arbeitsgruppe Digitale Datensammlungen und Textkorpora der Initiative „Digitale Information“ im Rahmen der Allianz der deutschen Wissenschaftsorganisationen.

Nordrhein-Westfälische Akademie der Wissenschaften und der Künste (NRWAW)

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Ancient and Medieval Texts (Coord.); Early Modern, Modern, and Contemporary Texts

Die 1970 vom Land Nordrhein-Westfalen gegründete Akademie ist ein Zusammenschluss der führenden Forscherinnen und Forscher des Landes und vereint alle Formen der Erkenntnisgewinnung, sowohl wissenschaftlicher als auch künstlerischer Natur. Sie ist Mitglied der Union der deutschen Akademien der Wissenschaften und arbeitet in internationalen Forschungsprojekten mit der Union Académique Internationale (UAI) zusammen.

Eine zentrale Aufgabe der Akademie ist die Förderung und Betreuung von langfristiger Grundlagenforschung, die an Universitäten oder anderen Forschungseinrichtungen in dieser Form meist nicht durchgeführt werden kann. Die Akademie betreut derzeit 13 Langfristvorhaben, von denen sich viele mit dem textlichen Erbe und mit Editionen in all ihren Aspekten befassen, von der Antike bis zur Moderne und von deutscher Sprache bis zu nicht-lateinischen Schriften. Zu den Projekten gehören u.a. die Averroes-Edition, die Edition der Fränkischen Herrschererlasse, die Rekonstruktion des griechischen Neuen Testaments, die Edition der Kleinen und Fragmentarischen Historiker der Spätantike, die genetische Edition der literarischen Werke von Arthur Schnitzler und die Digitalisierung und Edition der Zettelkästen von Niklas Luhmann. Die Koordinierungsstelle für Digital Humanities der Akademie fungiert als zentrales Kompetenzzentrum für alle Langfristvorhaben der Akademie, um den Einsatz aktueller digitaler Methoden zu gewährleisten und den gesamten Projektlebenszyklus abzudecken, mit einem Schwerpunkt auf editionsrelevanten Methoden und Technologien. Die Koordinierungsstelle ist am Cologne Center for eHumanities (CCeH) angesiedelt und arbeitet eng mit dem Data Center for the Humanities (DCH) zusammen. Sie ist aktiv in Forschung und Lehre auf dem Gebiet der Digital Humanities und der Informationsverarbeitung an der Universität zu Köln beteiligt. Derzeit hat die Akademie die Position des Sprechers der Arbeitsgruppe eHumanities der Union der deutschen Akademien der Wissenschaften inne. Die Beteiligung an der Nationalen Forschungsdateninfrastruktur (NFDI) ist Ausdruck der langfristigen strategischen Ausrichtung der Forschung der Akademie. Als Mitantragsteller ist die Akademie für den Aufgabenbereich Editionen in Text+ verantwortlich und wird ihre langjährige Erfahrung in der Digitalisierung sowie in der Erstellung und Pflege von Editionen unterschiedlichster Art einbringen. Die Koordinierungsstelle der Akademie bringt umfangreiche Erfahrungen in Beratung, Planung, Durchführung und Hosting digitaler Forschungsprojekte sowie im Datenmanagement, in der Archivierung und in der Umsetzung von Nachhaltigkeitsmaßnahmen ein. Besonderes Gewicht wird auf die wissenschaftsgetriebene Entwicklung von Forschungsinfrastrukturen in enger Wechselwirkung mit Forschung und Innovation in den digitalen Geistes- und Informationswissenschaften gelegt.

Salomon Ludwig Steinheim-Institut für deutsch-jüdische Geschichte (STI)

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Ancient and Medieval Texts

Das STI ist ein assoziiertes Institut der Universität Duisburg-Essen und Mitglied der Johannes-Rau-Forschungsgemeinschaft in Nordrhein-Westfalen.

Das STI erforscht die Geschichte und Kultur der Juden im deutschsprachigen Raum vom Mittelalter bis zur Gegenwart. Das dichte Beziehungsgeflecht zwischen jüdischer und allgemeiner Gesellschaft wird aus religions- und sozialgeschichtlicher, literatur-, kultur- und sprachwissenschaftlicher Perspektive untersucht, insbesondere mit Bezug auf innerjüdische und hebräische Quellen. Neben der deutsch-jüdischen Geschichte und Judaistik gibt es einen anwendungsorientierten Schwerpunkt auf Methoden der Digital Humanities (DH).

Das digitale Portfolio umfasst zahlreiche Editionen, prosopografische und bibliografische Werke, Fotosammlungen, Bildarchive, Briefe und Tagebücher. Ein Langzeitprojekt des STI ist die Edition jüdischer Epitaphien. 37.000 hebräische und deutsche Epitaphien von 218 jüdischen Friedhöfen, jeweils mit Transkriptionen, Übersetzungen, Objektbeschreibungen, Anmerkungen und Kommentaren wurden als digitale Editionen veröffentlicht (Extensible Markup Language TEI-XML, Creative Commons Licensing).

Die digitalen Editionen und Sammlungen des STI stehen in engem Zusammenhang mit den Forschungsaktivitäten. Daher beteiligt sich das Institut an der Entwicklung von Forschungsplattformen und Infrastrukturkomponenten, die Web-Publishing, digitale Annotation, Retrieval, Visualisierung, Analyse und Verknüpfung der Daten ermöglichen. Folglich verfügt das Institut über grundlegende Expertise in der Verarbeitung von hebräischen (right-to-left, RTL) und EpiDoc- und TEI-Dateien (Tübingen System of Text Processing tools, TUSTEP). Darüber hinaus verfügt es über langjährige Praxis in den XML-Transformationssprachen XSLT und XQuery (u.a. Saxon), in Retrieval-Plattformen wie Solr und in Werkzeugen und Technologien wie eXist-db und BaseX XML-Datenbanken, Apache Cocoon (XML-Web-Entwicklungs-Framework) und Mediawiki / Wikibase (Resource Description Framework RDF, SPARQL Protocol and RDF Query Language). Eigene Entwicklungen wie Epidat, der domänenspezifische STI Linked Data Service, die Judaica-Suchmaschine und ein bibliographisches System, das Georeferenzen und Normdateien unterstützt, basieren auf diesen Kompetenzen, genauso wie die Zusammenarbeit mit Europeana oder dem PEACE Portal. Vor diesem Hintergrund verfügt das STI über Erfahrungen mit den Anforderungen, der Implementierung und der Nutzung von Forschungsinfrastrukturen in den Geisteswissenschaften. Das STI ist ein langjähriges Mitglied von TextGrid und der International TUSTEP User Group (ITUG). Mitglieder des Instituts werden bei verschiedenen Projekten zu digitalen Editionen konsultiert (z.B. als Mitglieder des Beirats). Die Aktivitäten umfassen wissenschaftliche Beiträge, Blog-Posts, Vorträge über Anwendungen und Methoden der DH sowie die Organisation von Schulungen und Workshops zu digitalen Editionen. Das STI nimmt an den Arbeitsgruppen der DH teil. In diesem Zusammenhang setzt es sich insbesondere für die Interoperabilität und Vernetzung von Ressourcen auf der Grundlage von Standards und Normdateien ein und beteiligt sich aktiv an der Öffnung der Integrated Authority File GND (GND for Cultural Data) sowie an der wissenschaftlichen Nutzung von Wikibase in den Geisteswissenschaften.

Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB)

Datenzentrum in folgenden Clustern der Datendomäne Editionen: Early Modern, Modern and Contemporary Texts (Coord.); Ancient and Medieval Texts

Die SUB ist seit über 15 Jahren als Anbieterin von Informationstechnologie und Informationswissenschaften an der Erstellung digitaler Editionen beteiligt. Dazu gehört sowohl die Beteiligung an zahlreichen drittmittelfinanzierten Redaktionsprojekten als auch die Entwicklung und Bereitstellung von generischen Werkzeugen zur Erstellung und Publikation digitaler Ausgaben (TextGrid, SADE, TextAPI). Darüber hinaus verfügt die SUB über umfangreiche Erfahrungen in der Vermittlung von Fähigkeiten im Bereich der digitalen Bearbeitung und der Werkzeug-Nutzung durch Schulungen, Workshops und Sommerschulen.

Die an der SUB entwickelten digitalen Editionen decken alle Archetypen ab (diplomatische, historisch-kritische und genetische Editionen) und umfassen ein breites Spektrum von Disziplinen:

Einige dieser Projekte sind Hybridausgaben, die sowohl als Web-Portale als auch als Printpublikationen veröffentlicht wurden. Für diese Anforderung hat die SUB eine anpassungsfähige und wiederverwendbare Toolchain für die Erstellung von Prepress Files auf der Basis der Daten der Extensible Markup Language der Text Encoding Initiative (TEI-XML) entwickelt (bdnPrint). Darüber hinaus hat die SUB ihre Kompetenzen im Bereich der digitalen Editionen (Datenmodellierung, Softwareentwicklung, Projektakquisition und -management) durch die Einrichtung des Services Digitale Editionen konsolidiert, der aus eigenen Mitteln finanziert wird. Dieser Service bietet Beratungsdienste auf lokaler, nationaler und internationaler Ebene an. Die SUB ist auch an zahlreichen Standardisierungsgremien beteiligt, die für die Erstellung digitaler Editionen relevant sind, wie dem TEI-Konsortium, dem IIIF-Konsortium, dem Dublin Core Governing Board, dem MODS Editorial Committee, und LIDO – CIDOC.

Deutsche Nationalbibliothek (DNB)

Die DNB ist die zentrale Archivbibliothek Deutschlands. Sie sammelt, dokumentiert und archiviert alle seit 1913 in Deutschland erschienenen Publikationen und Tonträger sowie Werke, die in deutscher Sprache erstellt wurden oder einen Bezug zu Deutschland haben. Entsprechend ihrem gesetzlichen Auftrag baut die DNB eine große, ständig wachsende digitale Sammlung auf und wird diese unter Beachtung der rechtlichen Rahmenbedingungen in Text+ integrieren. Diese Sammlung ist bereits in sich inhomogen und reicht von zeitgenössischer deutschsprachiger Literatur über alle Tageszeitungen, wissenschaftliche Artikel aus deutschen Verlagen bis hin zu Kioskliteratur. Sie umfasst auch eine Reihe von Sondersammlungen, wie z.B. das Archiv und die Bibliothek des Börsenvereins des Deutschen Buchhandels e.V. oder die Sammlung des Deutschen Exilarchivs 1933-1945 mit Exilpresse digital. Die DNB erleichtert Forschungsprojekte in den verschiedensten Disziplinen, indem sie die digitale Sammlung von Texten des 21. Jahrhunderts so flexibel wie möglich bereitstellt und Projekte zur Korpusbildung unterstützt.

Die DNB wird eine aktive Rolle bei der Weiterentwicklung von Techniken zur Verknüpfung von Sammlungen mit anderen lokal und thematisch getrennten Datensätzen aus Text+ über Linked Open Data (LOD) und insbesondere über Normdateien wie die Gemeinsame Normdatei (GND) oder über lexikalische Ressourcen spielen. Sie wird die GND auch im Hinblick auf die Bedürfnisse der wissenschaftlichen Gemeinschaften weiterentwickeln.

Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)

Die GWDG ist das Daten- und IT-Dienstleistungszentrum für die Universität Göttingen und die Max-Planck-Gesellschaft und bietet eine breite Palette hochverfügbarer Dienste für Lehre und Forschung. Darüber hinaus ist die GWDG maßgeblich an geisteswissenschaftlichen Forschungsinfrastrukturprojekten wie DARIAH-DE, CLARIAH-DE und der European Open Science Cloud (EOSC) beteiligt. In DARIAH-DE ist die GWDG als technischer Koordinator nicht nur für die deutsche Nutzendengemeinschaft, sondern auch für die europäischen Nutzenden zuständig. Dazu gehört die Bereitstellung von Diensten wie Authentifizierungs- und Autorisierungsinfrastruktur (AAI) und Persistent Identifiers (PID). Darüber hinaus bietet die GWDG den Forschenden am Göttinger Campus Beratung an, zum Beispiel im Hinblick auf Informationssicherheit oder Forschungsdatenmanagement.

Leibniz-Institut für Deutsche Sprache (IDS)

Das 1964 gegründete IDS in Mannheim, Deutschland, ist das führende nationale Zentrum, das die deutsche Sprache in ihrem zeitgenössischen Gebrauch und in der jüngeren Geschichte erforscht und dokumentiert. Aufgabe des IDS ist es, die sprachliche Vielfalt, Struktur und Verwendung der deutschen Sprache zu dokumentieren, zu archivieren und zu erforschen. In jüngster Zeit wurde das Forum deutsche Sprache durch das IDS und seine Partner initiiert. Das IDS gilt auch als zentraler Knotenpunkt der internationalen deutschen Sprachwissenschaft und ist als führendes Zentrum der Grundlagenforschung anerkannt. Im Jahr 2019 wurde die Abteilung Digitale Linguistik gegründet, deren konstituierende Programmbereiche beide von der Leibniz-Gemeinschaft als exzellent bewertet wurden. Diese neue Abteilung wird Text+ beherbergen.

Darüber hinaus entwickelt das IDS praktische Werkzeuge und betreibt eine rechnergestützte Infrastruktur zur Unterstützung der empirischen Forschung und erstellt in engem Kontakt mit der ihm zugehörigen Gemeinschaft von Linguistinnen und Linguisten des Deutschen Nachschlagewerke (z.B. Grammatiken und Wörterbücher) und digitale Sprachressourcen (insbesondere große Korpora und Analysesoftware). Das IDS verfolgt überwiegend langfristig angelegte Projekte und entwickelt neue Forschungsschwerpunkte durch kompetitiv eingeworbene Drittmittel. Als Bindeglied zwischen Universitäten und anderen akademischen Partnern dient das IDS als Koordinator und Förderer langfristiger gemeinsamer Forschungsprojekte, wie CLARIN-D, und wirkt im Vorstand des European Research Infrastructure Consortium CLARIN sowie in internationalen Gremien im Hinblick auf Technologie und Organisation mit, wie z.B. der Text Encoding Initiative und der International Standards Organization.

Das IDS bringt seine Erfahrung sowohl in der Grundlagenforschung als auch in der Ressourcen- und Werkzeugentwicklung ein, seine Tradition, diese beiden Bereiche im Hinblick auf spezifische Forschungsprojekte und Forschungsfragen zu verbinden, und darüber hinaus seine Beiträge zu verteilten Forschungsinfrastrukturen. Als antragstellende Institution wird das IDS das Text+-Budget verwalten und sein Konsortium von Interessenvertretern integrieren. Unter Federführung des Aufgabenbereichs Administration wird das IDS für die Auszahlung der Projektmittel an die mitantragstellenden und beteiligten Institutionen verantwortlich sein und das Scientific Office von Text+ betreiben. Das IDS ist auch einer der zentralen Knotenpunkte in den Text+ Clustern mit zwei Spezialgebieten.

Jülich Supercomputing Centre (JSC)

Das JSC am Forschungszentrum Jülich betreibt seit 1987 das erste deutsche Höchstleistungsrechenzentrum und setzt im Jülicher Institute for Advanced Simulation die lange Tradition des wissenschaftlichen Rechnens in Jülich fort. Es stellt den Forschern in Deutschland und Europa über ein unabhängiges Peer-Review-Verfahren Rechenzeit der höchsten Leistungsebene zur Verfügung. Im JSC arbeiten rund 200 Experten und Ansprechpartner für alle Aspekte rund um Supercomputing und Simulationswissenschaften. Ein Schwerpunkt des JSC liegt auf dem Gebiet der föderierten Systeme und Daten. Hier werden neben der europäischen Open-Source-Software UNICORE gemeinsam mit Anwendern Anwendungsumgebungen und communityspezifische Dienste für verteilte Daten- und Recheninfrastrukturen entwickelt. Der föderierte Entwicklungsansatz respektiert die Autonomie der Nutzergruppen und Zentren.

Sächsische Akademie der Wissenschaften zu Leipzig (SAW)

Die SAW ist für mehr als 20 laufende Langzeitforschungsprojekte in den Geisteswissenschaften verantwortlich und engagiert sich in der Bereitstellung von Services und Support für die Geisteswissenschaften bei der Nutzung digitaler Ressourcen und Werkzeuge. Ab März 2021 werden die Services, die derzeit vom CLARIN-D– und CLARIAH-DE-Team am Institut für Informatik der Universität Leipzig erbracht werden, an der SAW verstetigt. Sie verfügt damit über langjährige Erfahrungen in der Entwicklung technischer Infrastrukturen für die Geisteswissenschaften und wird  die Aufgaben des Arbeitspakets für die Koordination der technischen Entwicklung in CLARIAH-DE weiterführen. Die SAW wird insbesondere ihre Expertise im Bereich der Suche und Recherche in verteilten Umgebungen, der Metadateninfrastruktur und der semantischen Webtechnologie sowie der Qualitätssicherung von Diensten und Daten in die Text+-Infrastruktur einbringen.

Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB)

Die SUB ist eine der größten Bibliotheken in Deutschland und führend in der Entwicklung digitaler Bibliotheken. Sie beherbergt mehrere digitale Sammlungen von erheblicher Bedeutung als Ressourcen für die Forschung in Text+, die vom Göttinger Digitalisierungszentrum zur Verfügung gestellt werden. Gemeinsam mit der Deutschen Nationalbibliothek (DNB) verwaltet die SUB die Fachstelle Bibliothek der Deutschen Digitalen Bibliothek und koordiniert die Aktivitäten der DINI-AG KIM. Sie koordiniert DARIAH-DE, ist Mitglied des Nationalen Koordinierungsausschusses von DARIAH-ERIC und koordiniert CLARIAH-DE zusammen mit der UniTÜ. Die SUB bietet einen DOI-Service für die Geisteswissenschaften in Zusammenarbeit mit DataCite, der bereits über 40.000 Datensätze registriert hat, sowie lokale, nationale und internationale Unterstützung bei der Erstellung digitaler Editionen durch eine interne Einheit (Service Digitale Editionen). Auf internationaler Ebene ist die SUB wissenschaftlicher Koordinator von OpenAIRE, Partner im europäischen Plug-in der Research Data Alliance und Partner im EOSC-Projekt SSHOC (Social Sciences and Humanities Open Cloud).

Im Bereich Infrastruktur/Betrieb wird sich die SUB auf Community Services und Cross-Cutting Themen konzentrieren. Insbesondere wird sie einen Beitrag zur Metadateninfrastruktur leisten, um die Interoperabilität und Wiederverwendbarkeit der Daten in Text+ zu erhöhen. Die SUB ist Teil zahlreicher Standardisierungsgremien, wie z.B. dem Konsortium der Text Encoding Initiative, dem Dublin Core Governing Board, dem Metadata Object Description Schema Editorial Committee (MODS/MADS), dem International Image Interoperability Framework Consortium (IIIF), dem CIDOC Conceptual Reference Model-SIG und der LIDO Working Group (Lightweight Information Describing Objects). Die SUB ist maßgeblich an der Entwicklung und Weiterentwicklung verschiedener Metadatenstandards beteiligt, z.B. durch ihre Mitwirkung bei der Spezifikation des METS/MODS-Anwendungsprofils für digitalisierte Drucke, dem De-facto-Beschreibungsstandard für digitalisiertes Material in deutschen Bibliotheken.

Technische Universität Dresden, Zentrum für Informationsdienste und Hochleistungsrechnen (TUDD)

Das Zentrum für Informationsdienste und Hochleistungsrechnen stellt Fachwissen und Ressourcen im Aufgabenbereich Infrastruktur/Betrieb von Text+ zur Verfügung. In diesem Rahmen bietet es Zugang zur Datenanalyse-Infrastruktur des HRSK-II/HPC-DA.

Otto-Friedrich-Universität Bamberg (UniBA)

Die Schwerpunkte des Lehrstuhls für Medieninformatik an der Universität Bamberg sind Information Retrieval, Datenmanagement und Forschungsinfrastrukturen der Digital Humanities. Der Lehrstuhl beteiligt sich seit 2011 an DARIAH-DE und ist Partner in CLARIAH-DE. Auf der Grundlage von DARIAH-DE und CLARIAH-DE und der Umsetzung von geförderten und nicht geförderten Anwendungsszenarien (z.B. mit dem Forschungsverbund Marbach Weimar Wolfenbüttel, Germanisches Nationalmuseum) hat die Gruppe die DARIAH-DE Data Federation Architecture (DFA) implementiert, die als wichtiger Enabler für die Interoperabilität und Auffindbarkeit von Forschungsdaten dient. Als primäre DFA-Komponente zur Herstellung der Interoperabilität zwischen heterogenen Datenquellen werden die Data Modeling Environment (DME) und die darauf aufbauende Generic Search der Ausgangspunkt für entsprechende Anwendungen, Anpassungen und Weiterentwicklungen im Rahmen von Text+ sein.

Liste der Institutionen und Kürzel als PDF.