Niedersorbische Textkorpora

Unterschieden werden ein „altes“ sowie ein „neues“ Textkorpus (im Aufbau). Beide Korpora sind mit verschiedenen Zugriffsmethoden verbunden. Die Datengrundlage für letzteres umfasst zurzeit (2020) ca. 43 Millionen Tokens. Die Texte werden schrittweise annotiert (u.a. Normalisierung/Lemmatisierung). Die Suche erfordert keine vertieften Kenntnisse über die historische Schreibung und Formenvielfalt, greift aber aktuell noch auf wenig Texte zu. Das alte Textkorpus umfasst mehr als 23 Millionen Tokens, wovon ca. 15 Millionen online zur Verfügung stehen. Die Texte sind nicht annotiert und kaum weiter verarbeitet, es liefert ausschließlich die Originalschreibweise. Außerdem sind die Texte nicht korrigiert, so dass mit (Ab-)Schreibfehlern zu rechnen ist.

https://www.niedersorbisch.de/korpus/

Niedersorbische Textkorpora

Sorbisches Institut Bautzen