Sächsische Akademie der Wissenschaften zu Leipzig (SAW)

Lexikalische Ressourcen

Datenzentrum in folgenden Clustern der Datendomäne Lexikalische Ressourcen: German Dictionaries in a European Context; Born-Digital Lexical Resources; Non-Latin Scripts

Die SAW betreibt eine Vielzahl von Wörterbuchprojekten, die sich mit historischen und zeitgenössischen lexikalischen Daten befassen. Im Bereich der lexikalischen Daten in digitaler Form ist die Leipzig Corpora Collection (LCC) ein wichtiger Anbieter einsprachiger Wörterbüchern für Hunderte von Sprachen, wobei der Schwerpunkt auf statistisch fundierten Textanalysen und der Förderung von Sprachen mit weniger Ressourcen liegt. Das Projekt, das ursprünglich von der Universität Leipzig ins Leben gerufen wurde, wird von der SAW weitergeführt. Die Ressourcen der SAW umfassen historische und zeitgenössische lexikalische Daten für verschiedene Stadien der deutschen Sprache und eine große Sammlung einsprachiger Wörterbücher, die auf öffentlich zugänglichem Textmaterial basieren, das seit den 1990er Jahren gesammelt wurde. Gegenwärtig enthält die LCC mehr als 400 Korpora und Wörterbücher in mehr als 250 Sprachen. Die Daten werden über ein Webportal und RESTful-Webdienste (REST steht für Representational State Transfer) zur Verfügung gestellt, von denen viele in die CLARIN-Infrastruktur integriert sind. Die LCC ist zusammen mit ihrem Teilprojekt Deutscher Wortschatz eine der wichtigsten Online-Ressourcen im Bereich der Lexikographie moderner Sprachen und wirkt über den akademischen Bereich hinaus. Es stellt zuverlässige Text- und Lexikografiedaten für Hunderte von Sprachen zur Verfügung, die dann als Schulungsmaterial für etablierte Werkzeuge zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) wie Apache OpenNLP oder als Online-Nachschlagewerk (z.B. in Projekten wie Wiktionary) dienen. Die LCC legt einen starken Schwerpunkt auf die Verbesserung der Verfügbarkeit digitaler Ressourcen für unterversorgte Sprachen. In Zusammenarbeit mit externen Sprachexperten unterstützt sie die Vorbereitung und das Hosting lexikalischer Datensätze in einer modernen Forschungsumgebung. Die LCC ist auch aktiv in der Verwendung, Standardisierung und Anpassung von Linked-Data-Formaten für lexikalische Ressourcen.

Infrastruktur/Betrieb

Die SAW ist für mehr als 20 laufende Langzeitforschungsprojekte in den Geisteswissenschaften verantwortlich und engagiert sich in der Bereitstellung von Services und Support für die Geisteswissenschaften bei der Nutzung digitaler Ressourcen und Werkzeuge. Ab März 2021 werden die Services, die derzeit vom CLARIN-D- und CLARIAH-DE-Team am Institut für Informatik der Universität Leipzig erbracht werden, an der SAW verstetigt. Sie verfügt damit über langjährige Erfahrungen in der Entwicklung technischer Infrastrukturen für die Geisteswissenschaften und wird die Aufgaben des Arbeitspakets für die Koordination der technischen Entwicklung in CLARIAH-DE weiterführen. Die SAW wird insbesondere ihre Expertise im Bereich der Suche und Recherche in verteilten Umgebungen, der Metadateninfrastruktur und der semantischen Webtechnologie sowie der Qualitätssicherung von Diensten und Daten in die Text+-Infrastruktur einbringen.