Ludwig-Maximilians-Universität (LMU) München, Bayerisches Archiv für Sprachsignale, BAS

Datenzentrum in folgenden Clustern der Datendomäne Collections: Contemporary Language

Sitz des BAS ist das Institut für Phonetik und Sprachverarbeitung der LMU München. Es wurde 1995 mit dem Ziel gegründet, den Zugang zu Sprachdaten und Sprachverarbeitungsdiensten sowohl für die Sprachtechnologieentwicklung als auch für die Forschung zu ermöglichen. Seitdem hat es sich zu einem Forschungszentrum für Sprachsammlungen und die entsprechende Forschungsinfrastruktur entwickelt.

Das BAS verfügt über eine eigene technische Infrastruktur innerhalb des Instituts. Es unterhält enge Beziehungen zum Linguistic Data Consortium (LDC), das an der University of Pennsylvania angesiedelt ist, und zur European Language Resources Association (ELRA). Seit 2010 ist es Mitglied von CLARIN-D, wo es auf dem Wissensgebiet der zeitgenössischen Sprachdaten tätig ist. Darüber hinaus ist das BAS ein CoreTrustSeal-zertifiziertes CLARIN-B-Zentrum, das aktiv Dienstleistungen mit dem Schwerpunkt Sprache in Forschungsinfrastrukturen anbietet.

Die vom BAS bereitgestellten Ressourcen lassen sich in drei Hauptkategorien einteilen:

  • ein Repository für Sprachdatenbanken.
  • eine Reihe von webbasierten Diensten zur Sprachverarbeitung
  • verschiedene eigenständige Tools zur Datensammlung und -analyse.

Das Repository des BAS enthält derzeit mehr als 40 Sammlungen von Sprachdaten in mehreren Sprachen (Deutsch, Englisch, Japanisch, Italienisch usw.). Diese Sammlungen wurden entweder intern oder durch industrielle oder akademische Projekte erstellt, z.B. Verbmobil, SmartKom. In den letzten Jahren wurde eine Reihe von Ressourcen, die von Dritten erstellt wurden, dem Repositorium hinzugefügt, z.B. das Gesprochene Wortkorpus für Untersuchungen zur auditiven Verarbeitung von Sprache und emotionaler Prosodie (WaSeP) und das Karl-Eberhard-Korpus aus Tübingen. Die vom BAS bereitgestellten Ressourcen sind einzigartig und wichtig für jede Forschung zur gesprochenen Sprache im In- und Ausland.

Der bekannteste Webdienst des BAS ist zweifelsohne WebMAUS, ein mehrsprachiger Aligner von Text und Sprache. Zu den weiteren Diensten gehören die Graphem-Phonem-Konvertierung, Aussprachewörterbücher, Audio-Anreicherung und Pipeline-Dienste, die vordefinierte Verarbeitungsketten für Sprachdaten bereitstellen. Zu den vom BAS entwickelten Werkzeugen gehören SpeechRecorder für skriptgesteuerte Audioaufnahmen und das EMU Speech Database Management System.