Universität des Saarlandes (SLUni), Fachrichtung Sprachwissenschaft und Sprachtechnologie

Datenzentrum in folgenden Clustern der Datendomäne Collections: Contemporary Language; Historical Texts

Als Kompetenzzentrum ist die SLUni spezialisiert auf Registerkorpora, multilinguale Korpora und Übersetzungskorpora. Außerdem unterhält die SLUni ein CLARIN-D-Datenzentrum mit CoreTrustSeal-Zertifizierung.

Der Schwerpunkt des Datenzentrums liegt auf multilingualen Korpora sowie Korpuswerkzeugen und mehr als 100 Datenressourcen wurden bereits im Repositorium der SLUni archiviert. Die Ressourcen sind über das Virtual Language Observatory auffindbar und eine Auswahl der archivierten Korpora ist zudem über die Federated Content Search durchsuchbar.

Hiervon sind im Zusammenhang mit Text+ zwei diachrone Korpora für das Englische hervorzuheben:

  • Royal Society Corpus (RSC) Das RSC beinhaltet wissenschaftliche Publikationen aus den Jahren 1665 bis 1920, die in den Proceedings der Royal Society of London veröffentlicht wurden. Das Korpus wurde umfangreich auf Text-, Satz- und Tokenenbene annotiert und umfasst 78,6 Millionen Token.
  • Old Bailey Corpus (OBC) Das Korpus dokumentiert gesprochenes Englisch aus zwei Jahrhunderten (1720 bis 1913) und basiert auf Verhandlungsprotokollen des zentralen Strafgerichtshofs in London. Die Texte des OBC umfassen 24,4 Millionen Token und wurden mit soziobiografischen und pragmatischen Annotationen versehen.

Aufgrund ihrer freien Lizenz, Größe und breiten Nutzung in der Forschung sind diese Datenressourcen für eine Übernahme in Text+ besonders relevant. Weiterhin beinhaltet das Repositorium der SLUni Übersetzungskorpora, darunter EuroParl-UdS und EPIC-UdS, sowie eine Reihe slawischer Ressourcen.