Call for Data 2020

Im Rahmen der Vorbereitung des Antrages für die zweite NFDI-Förderrunde hat die damalige Initiative Text+ einen offenen Call for Data gestartet. Der Antrag wurde im Juli 2021 bewilligt und seitdem arbeiten wir daran, die Daten in die Infrastruktur des NFDI-Konsortiums Text+ zu integrieren.

Eine Auswahl an bereits integrierten Datenbeständen aus der Community präsentieren wir unter dem Menüpunkt Daten und Dienste. Forschungsdaten können weiterhin angeboten werden. Kontaktieren Sie dafür bitte unseren Helpdesk.

Ergebnisse des Daten-Calls

Im Folgenden präsentieren wir einige der Daten, die aus der Community zur Integration in die Infrastruktur von Text+ vorgeschlagen wurden.

APWCF, APWCD: Linguistisches Korpus der Acta Pacis Westphalicae, französische und deutsche Korrespondenzen

Universität Potsdam, Lehrstuhl für romanische Sprachwissenschaft (Französisch und Italienisch)
Sprache(n) Deutsch, Französisch, Italienisch, teils Latein, zahlreiche anderssprachige Einschübe
Modalität(en) geschrieben
Fächer (beschreibend) Linguistik, Geschichte, Rechtsgeschichte, Geschichte internationaler Beziehungen, Kulturgeschichte

Es handelt sich um ein linguistisches Korpus auf Basis der digitalen Edition der Acta Pacis Westphalicae (APW). Für diese Nachnutzung und die nicht-kommerzielle Datenpublikation liegen schriftliche Genehmigungen der rechteinhabenden Institutionen vor. Aus linguistischer Sicht ist diese ursprünglich für die Historiographie aufbereitete Ressource äußerst wertvoll: die deutschen, französischen, oft mehrsprachigen fachsprachlichen oder informellen Textsorten repräsentieren unterschiedliche Register einer wichtigen Sprachwandelphase. Die Editionskriterien verzeichnen minimale Eingriffe in den Originaltext. Als Korpus (Auszeichnung von Metadaten, Trennung von Textdaten) bisher verfügbar: Französische Korrespondenzen der Acta Pacta Westphalicae (1644–1647), annotiert mit TreeTagger Parameter für das klassische Französisch des Projekts PRESTO (DFG/ANR), 2.640.000 Tokens Deutsche Korrespondenzen der Acta Pacta Westphalicae (1643–1648), ca. 835.000 Tokens, noch nicht annotiert.

Bibliothek für Bildungsgeschichtliche Forschung (BBF)

DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation
Sprache(n) Deutsch
Modalität(en) geschrieben
Fächer (beschreibend) Geschichte, Erziehungswissenschaften

Die Bibliothek für Bildungsgeschichtliche Forschung stellt die Briefe Friedrich Fröbels und den Briefwechsel zwischen Eduard Spranger und Käthe Hadlich als Online-Edition bereit. Enthalten sind 6.251 Dokumente aus den Jahren 1799–1852 (Fröbel-Edition) und 1903–1960 (Spranger-Hadlich). Über ein Personen- und Jahresregister kann auf die Briefe zugegriffen werden. Die Texte sind nach den Richtlinien der Text Encoding Initiative (TEI) ausgezeichnet. Derzeit wird die Migration der Edition in den TEI-Publisher vorbereitet.

Briefedition Friedrich Fröbel Edition des Briefwechsels zwischen Eduard Spranger und Käthe Hadlich

Datenbank und Meldeformular für romanistische Forschungsdaten

Fachinformationsdienst Romanistik, romanistik.de e.V.
Sprache(n) Deutsch
Fächer (beschreibend) Romanistik, Disziplinen, in denen Daten mit romanistischer Relevanz anfallen

Von romanistik.de, der AG Digitale Romanistik und dem FID Romanistik entwickeltes Meldeformular auf der romanistischen Kommunikationsplattform romanistik.de, das es erlaubt, auf eigene Forschungsdaten wie auf traditionelle Publikationen aufmerksam zu machen. Gemeldete Forschungsdaten sind dann über die Plattform auffindbar und werden auch über den romanistik.de-Newsletter beworben. Gemeldete Ressourcen Meldeformular

Digitale und retrodigitalisierte niedersorbische Wörterbücher

Sorbisches Institut Bautzen
Sprache(n) Niedersorbisch, Deutsch
Modalität(en) geschrieben
Fächer (beschreibend) Sorabistik, Slawistik, Lexikografie, Sprachwissenschaft, Kulturwissenschaft

Einheitliche Internetversion vierer retrodigitalisierter niedersorbisch-deutscher Wörterbücher auf Basis fein-granular semantisch-strukturell modellierter XML-Dateien. Außerdem: Digitales aktives Deutsch-niedersorbisches Wörterbuch. Diese lexikalischen Ressourcen werden zunehmend über gemeinsame Suchschnittstellen miteinander verbunden.

https://www.niedersorbisch.de/

Dokumente und Materialien zur ostmitteleuropäischen Geschichte

Herder-Institut für historische Ostmitteleuropaforschung – Institut der Leibniz-Gemeinschaft
Sprache(n) mehrsprachig
Modalität(en) geschrieben
DFG Fachsystematik 102Geschichtswissenschaften
Fächer (beschreibend) Geschichte Ostmitteleuropas, Slawistik, Geschichstdidaktik

Die digitale Edition bietet Themenmodule für die universitäre Lehre zur ostmitteleuropäischen Geschichte in ihrer zeitlichen Tiefe und räumlichen Breite an, so dass Themenmodule zur mittelalterlichen Geschichte ebenso angeboten werden wie zur Zeitgeschichte. Alle Textquellen, aber auch andere Materialien wie Statistiken werden zur Sicherung der Zitierfähigkeit in der jeweiligen Originalsprache, in deutscher Übersetzung und möglichst als Scan aus der Originalquelle angeboten, außerdem werden weitere Materialien wie Karten, Abbildungen, eine Auswahlbibliografie mit Literatur in westlichen Sprachen und eine Chronologie zur Orientierung angeboten. Sämtliche Module unterliegen einem Double-blind-peer-review-Verfahren. Das Angebot wird ständig erweitert, überarbeitet und derzeit wird ein englischsprachiges Angebot erarbeitet.

Übersicht Beschreibung

Erschließung der Korrespondenz der Constance de Salm (1767–1845)

Deutsches Historisches Institut Paris
Sprache(n) Deutsch
Modalität(en) geschrieben
Fächer (beschreibend) Geschichte, Sprachwissenschaften, Literaturwissenschaften

Es handelt sich um die Metadaten, mit denen die Korrespondenz der Constance de Salm (rund 11.000 Briefe) in einem langjährigen Projekt des Deutschen Historischen Instituts Paris inhaltlich und formal erschlossen wurden. Neben Empfänger- und Sendedaten wie Person, Ort und Datum gibt es eine inhaltliche Erschließung über Schlagworte.

https://constance-de-salm.de/

Europäische Religionsfrieden Digital (EuReD) – Digitale Quellenedition frühneuzeitlicher Religionsfrieden

Leibniz-Institut für Europäische Geschichte (IEG), Universitäts- und Landesbibliothek Darmstadt
Sprache(n) Deutsch, Latein, Französisch, Englisch, Tschechisch, Ungarisch, Polnisch, Italienisch, Niederländisch, Dänisch, Schwedisch, evtl. Russisch
Modalität(en) geschrieben
Fächer (beschreibend) Historische Friedensforschung, Kulturgeschichte, Rechtsgeschichte, Kirchen- und Theologiegeschichte, Editionswissenschaft

Mit der Quellenedition wird erstmals eine Textbasis für die vergleichende Erforschung vormoderner, religionsbezogener Friedensstiftung in Europa bereitgestellt. Die mit ausführlichen Einleitungen und Kommentaren versehene Edition umfasst die Zeitspanne von 1485 (Kuttenberger Frieden) bis 1788 (Woellnersches Religionsedikt). Grundlage der Ausgabe sind die Texte in ihrer zuerst veröffentlichten und rezipierten Form (editio princeps). Die Edition ist born-digital und verwendet die XML/TEI-p5-Standards.

http://www.religionsfrieden.de/ Webseite der Edition

GEI-Digital – Die digitale Schulbuch-Bibliothek

Georg-Eckert-Institut – Leibniz-Institut für internationale Schulbuchforschung
Sprache(n) Deutsch
Modalität(en) geschrieben
Fächer (beschreibend) Bildungsmedienforschung, (Neuere) Geschichte, Kulturgeschichte, Literaturwissenschaft, Soziologie, Deutsche Philologie, (historische) Linguistik

GEI-Digital bietet freien Zugang zu digitalisierten historischen deutschen Lehrbüchern aus der Zeit vor 1918 über digitale Bilder, OCR-Volltext und umfangreiche Metadaten. Es erlaubt die gezielte Volltextsuche in vorhandenen digitalisierten Sammlungen. Es enthält derzeit mehr als 6.300 Bände deutschsprachiger Lehrbücher, hauptsächlich Lesefibeln und den Fächern „Realienkunde“ (grundlegende Sozial- und Naturwissenschaften), Geographie und Geschichte.

http://gei-digital.gei.de/

LTA – Latin Text Archive (mit FLL - Frankfurt Latin Lexicon)

Goethe-Universität Frankfurt am Main
Sprache(n) Latein
Modalität(en) geschrieben
Fächer (beschreibend) Theologie, Geschichte, historische Kulturwissenschaften, Rechtswissenschaften, Romanistik, Mittelalterliche Lateinische Philologie, Linguistik

Das LTA ist ein frei zugängliches, webbasiertes analytisches Archiv von (großenteils) hochwertigen kritischen Editionen lateinischer Texte, die mit komplexen Metadaten versehen, vollständig lemmatisiert und mit einem Vollformen-Lexikon (FLL) verknüpft sind. Es bietet diachronisch organisierte Referenzkorpora nach Textgenres und Text Mining-Tools für die individuelle Korpusbildung und -analyse. Größe und Vielfalt des Inhalts ermöglichen es Forschern, zuverlässige diachrone Korpora (z. B. aus nur einem Texttyp) zur Analyse zu erstellen. Es umfasst die Textproduktion im lateinischsprachigen Europa von 400 bis 1500, wird aber kontinuierlich erweitert. Technisch basiert das LTA auf dem DTA (Deutsches Textarchiv).

Neue Website, noch in der Testphase Die aktuelle Website mit einigen grundlegenden Analysetools, die von der Goethe-Universität gehostet werden, öffentlich zugänglich Betriebsplattform für Vorverarbeitung, Annotation und Anwendung ausgearbeiteter Analysetools, kostenlose Registrierung erforderlich Lexikon, aktueller Zugriff auf die FLL

New Testament Virtual Manuscript Room (NTVMTR) – ECM digital

Westfälische Wilhelms-Universität Münster, Institut für neutestamentliche Textforschung
Sprache(n) Griechisch, Deutsch, Englisch
Modalität(en) geschrieben
Fächer (beschreibend) Philologien, Theologie, Editionswissenschaft, Papyrologie

Im Virtuellen Handschriften-Lesesaal (Virtual Manuscript Room = VMR) wird die herkömmliche Kurzgefaßte Liste der griechischen Handschriften ergänzt durch alle Informationen, die zu den einzelnen Handschriften vorhanden sind. Vor allem werden, soweit die besitzenden Institutionen zustimmen, Fotos der Manuskripte über eine entsprechende Website zur Verfügung gestellt. Zu diesem Zweck werden die Mikrofilmbestände des INTF gescannt (z.T. auch neue Fotos beschafft) und inhaltlich so erschlossen, dass sie mit den im INTF erstellten Transkripten der Handschriften verbunden werden. Links verweisen auch auf anderweitig im Netz bereitgestellte Fotos und Informationen. Der VMR ist inzwischen zu einer interaktiven Editionsplattform ausgebaut werden und dient als Arbeitsgrundlage für die im INTF erstellte Editio Critica Maior (ECM) des griechischen Neuen Testaments, kann aber auch für andere textkritische Editionen handschriftlich überlieferter Werke genutzt werden. Zur Zeit wachsen ECM und VMR zu einer interaktiven kritischen Edition des Neuen Testaments zusammen.

https://ntvmr.uni-muenster.de/

Berliner Papyrusdatenbank

Ägyptisches Museum und Papyrussammlung – Staatliche Museen zu Berlin
Sprache(n) Deutsch, Altgriechisch, Lateinisch
Modalität(en) geschrieben
Fächer (beschreibend) Alte Geschichte, Klassische Philologie, Ägyptologie, vergleichende Sprachwissenschaften, Religionswissenschaften, Rechtswissenschaften

Als Teil des weltweiten papyrologischen Datenbanknetzwerks ist die Berliner Papyrusdatenbank von zentraler Bedeutung für alle Fächer des Bereichs 101 „Alte Kulturen“ der DFG-Fächersystematik (insb. Alte Geschichte, Klassische Philologie, Ägyptologie) und weit darüber hinaus (z.B. vergleichende Sprachwissenschaften, Religionswissenschaften, Rechtswissenschaften u.ä.).

Es handelt sich um eine ständig erweiterte und aktualisierte Datenbank der griechisch- und lateinischsprachigen Bestände der Berliner Papyrussammlung, die die größte ihrer Art in Deutschland und zu den fünf größten weltweit zählt. Neben den Metadaten (z.B. Inhalt, Datierung, Herkunft, Publikationen und Erwerbungsgeschichte) und hochauflösenden Bildern werden Verlinkungen zu weiterführenden Informationen anderer Datenbanken und Projekte angeboten.

https://berlpap.smb.museum/

CrossAsia ITR (Integriertes Textrepositorium)

CrossAsia und Fachinformationsdienst Asien, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Sprache(n) Chinesisch, Englisch, Japanisch, Deutsch, Niederländisch, Französisch, Spanisch, Koreanisch, Thai, Laotisch
Modalität(en) geschrieben
Fächer (beschreibend) alle Geistes- und Sozialwissenschaften mit Asienbezug, insb. Asienwissenschaften (Sinologie, Japanologie, Koreanistik, Südostasienwissenschaften, Zentralasienwissenschaften (Tibetologie, Mongolistik, Uyghur studies), Südasienwissenschaften, Indologie), bzw. Regionalstudien mit Asienbezug, Reliogionswissenschaften (Buddhologie), ostasiatische Kunstgeschichte, etc.

Im „Integrierten Text-Repositorium“ CrossAsia ITR werden Bild- und Textdaten, der für den FID Asien und CrossAsia lizenzierten Datenbanken, für die Hosting-, Indexierungs- und Textmining-Rechte vereinbart werden konnten, sowie gemeinfreie Texte und Bilddaten wie Fotographien zusammen mit ihren Erschließungsdaten sicher und nachhaltig archiviert, mit dem Ziel, diese gleichberechtigt nebeneinander gemäß der FAIR-Prinzipien anbieten zu können. Enthalten sind aus dem Textbereich mit aktuellem Stand (August 2020) Volltexte von ca. 335.000 Titeln mit 53 Mio. Seiten aus 26 verschiedenen überwiegend chinesisch- und englischsprachigen lizenzpflichtigen Datenbanken sowie gemeinfreie Texte der Asienkollektion der Digitalisierten Sammlungen der SBB-PK in westlichen sowie asiatischen Sprachen. Eine Ressourcenliste findet sich hier.

Beschreibung Volltextsuche Explorer

Database of Cross-Linguistic Colexifications (CLICS)

Max-Planck-Institut für Menschheitsgeschichte
Sprache(n) mehrsprachig
Modalität(en) geschrieben, transkribiert
Fächer (beschreibend) historische Linguistik, linguistische Typologie, Psychologie, Neurowissenschaften

Die ursprüngliche Datenbank für sprachübergreifende Colexifikationen (CLICS) hat ein computergestütztes Framework für die interaktive Darstellung sprachübergreifender Colexifikationsmuster eingerichtet. Es hat sich als nützliches Instrument für verschiedene Arten der Untersuchung sprachübergreifender semantischer Assoziationen erwiesen, angefangen von Studien zum semantischen Wandel über Muster der Konzeptualisierung bis hin zur sprachlichen Paläontologie. CLICS wurde aber auch wegen offensichtlicher Mängel kritisiert. Aufbauend auf den Standardisierungsbemühungen der CLDF-Initiative und neuartigen Ansätzen für eine schnelle, effiziente und zuverlässige Datenaggregation hat CLICS² die ursprüngliche CLICS-Datenbank erweitert. CLICS³ – die dritte Ausgabe von CLICS – nutzt das in CLICS² entwickelte Framework, um die in der Datenbank aggregierte Datenmenge mehr als zu verdoppeln.

https://clics.clld.org

Datenbank mit Nachweisen romanistischer Forschungsdaten

Fachinformationsdienst Romanistik
Sprache(n) Deutsch, Sacherschließung teilweise zusätzlich Französisch
Modalität(en) geschrieben, gesprochen
Fächer (beschreibend) Romanistik (Literaturwissenschaft, Sprachwissenschaft, Kultur- und Medienwissenschaft, Fachdidaktik)

Datenbank auf der Basis von Academic LinkShare, in der u.a. Forschungsdaten nach Dublin Core formal und sachlich beschrieben werden. Die Sacherschließung umfasst die Vergabe von GND-Schlagwörtern, von DDC-Hauptklassen, Klassifikationen nach Regionen und Ressourcentyp sowie Abstracts. Auszüge lassen sich nach Bedarf generieren und können separat auf einzelnen Webseiten präsentiert werden. Die Daten sind inzwischen auch in den Index des FID-Suchportals integriert worden (derzeit noch testweise) und darüber recherchierbar. Leitseite Liste Allgemeines Informationsangebot zum Forschungsdatenmanagement

Fallada-Archiv

Karlsruher Institut für Technologie, Institut für Germanistik
Sprache(n) Deutsch, teilweise Englisch
Modalität(en) geschrieben
Fächer (beschreibend) Literaturwissenschaft, Editionsphilologie, Rezeptionsforschung, Zeitschriftenforschung, Kulturwissenschaft, Textlinguistik, Geschichtswissenschaft, Soziologie

Das Korpus besteht aus:

  • Bibliographie zum Autor Hans Fallada (1893–1947), die alle Primärtexte, Bearbeitungen, Rezensionen und den aktuellen Stand der Forschung listet.
  • Digitalisate schwer zugänglicher journalistischer und literarischer Beiträge Falladas sowie der Erstdrucke seiner Romane, die in verschiedenen Zeitungen und Zeitschriften in Fortsetzungen erschienen sind.
  • Digitalisate zeitgenössischer Rezensionen zu Fallada.

Das Korpus dieser Texte ist derzeit auf viele verschiedene Archive und Bibliotheken verteilt und zum Großteil nicht digital zugänglich.

Indices zur sprachlichen und literarischen Bildung in Deutschland

Dr. Uwe Grund, Hannover
Sprache(n) Deutsch
Modalität(en) geschrieben
Fächer (beschreibend) Germanistik, Erziehungswissenschaft

Die fünfbändige Druckfassung der INDICES (München u.a.O.: Saur, 1991ff.) verzeichnet und erschließt ca. 10.000 Dokumente von rund 3.000 Verfassern in fünf führenden Fachzeitschriften und zwei paradigmatischen Amtsblättern. Die Daten beruhen auf der Autopsie von rund 100.000 Druckseiten. Die seriellen Quellen (von ca. 1910 bis ca. 1970) werden mehrdimensional beschrieben (Textgenre / Inhaltsschwerpunkt / Verfahren der Verfasser). Sowohl Extraktions- wie Annotationsverfahren (via Thesaurus) kommen zu Anwendung. Steuerung und Qualitätssicherung (einheitliche Erschließungstiefe, Verknüpfbarkeit und Sortierbarkeit der Datensätze nach chronologischen, alphabetischen und taxonomischen Kriterien) erfolgte über eigens erstellte Regelwerke zur Datenerfassung, -auswertung und -weiterverarbeitung (unpubliziert). Einzelne Dateien zu monographischen Quellen (z. B. Lesebücher, Sprachbücher) liegen in Rohfassung vor.

Inscriptiones Christianae Graecae (ICG)

Humboldt Universität zu Berlin, Christian-Albrechts-Universität zu Kiel, Inscriptiones Graecae BBAW
Sprache(n) Griechisch
Modalität(en) geschrieben
Fächer (beschreibend) Religionsgeschichte, Epigraphie, Theologie, Geschichte, historische Kulturwissenschaften, Linguistik

ICG umfasst fast alle christlichen Ehren-, Votiv-, Bau- und Grabinschriften aus Kleinasien und Griechenland. Derzeit umfasst die wachsende Datenbank 4297 griechische Inschriften. Jedem Monument ist eine ICG-Nummer zugewiesen. Jeder ICG-Eintrag enthält den griechischen Originaltext, eine deutsche oder englische Übersetzung, einen knappen kritischen Apparat und Kommentar, ein oder mehrere Bilder, wenn verfügbar (d. h. ein Foto oder eine Zeichnung, bisher 5812 Abbildungen), sowie alle relevanten Informationen Datierung, Typologie, antike und moderne Provenienz, aktueller Standort und Fundort und den Fundumständen und ist mit Geokoordinaten versehen, die mit digitalen Online-Karten verlinkt sind, nämlich Pleiades, dem iDAI.gazetteer, und GeoNames. Für die archäologischen Belege zum Aufstieg und Verbreitung des Christentums in Attika wurden Kataloge zu den frühchristlichen Kirchen und spätantiken Friedhöfen in Attika fertiggestellt.

ICG bietet einen geographisch strukturierten Zugang zu bisher vernachlässigten lokalisierbaren Primärquellen, indem es Tausende von Inschriften gesammelt hat, die zuvor über Hunderte von Publikationen (seit dem 19. Jahrhundert) verstreut waren. Als erste digitale Datenbank zu christlich-griechischen Inschriften eröffnet sie enorme Möglichkeiten der interdisziplinären Zusammenarbeit zwischen Historikern, die sich für den Aufstieg und die Ausbreitung des Christentums und seinen Fußabdruck von der spätkaiserlichen bis zur frühbyzantinischen Zeit in Kleinasien und Griechenland interessieren, und ist ein nützliches Werkzeug für Forscher aus der Kirchengeschichte, der Alten Geschichte, der Epigraphik, der Archäologie und der Geschichte der Religionen. Die Datenbank kann online über einen ‚Gast‘-Login aufgerufen und nach ICG-Referenznummern, Regionen, antiken und modernen Orten, Bildern, Inschriftentypen oder bibliographischen Einträgen durchsucht und/oder durchgeblättert werden. Darüber hinaus ermöglichen Suchfunktionen die Abfrage der griechischen Originaltexte, der Übersetzungen und der anderen Metadaten unter Verwendung einer Vielzahl von Filtern (z. B. Region, Datierung, Ort, Typ). Da jeder antike und moderne Ort mit Geokoordinaten versehen und mit digitalen Online-Karten verknüpft wurde, ist ICG eine unschätzbare Ressource für die Erforschung der Verbreitung, der sozialen Struktur und des Profils des frühen Christentums und der Entwicklung des Klerus vom 3. bis zum 6. Jahrhundert. Die Datenbank öffnet die Tür, um lokale christliche Gemeinschaften, ihren kulturellen Hintergrund, Geschlechterrollen und Familienbeziehungen, Formen der Führung, den Gebrauch der Schrift, den Aufstieg der Asketen und die Theologie zu studieren und sie mit nicht-christlichen Landsleuten zu vergleichen. Erste Ergebnisse finden sich in den Monographien zu Lykaonien von C. Breytenbach und C. Zimmermann (Leiden: Brill, 2018) und zu Attika von C. Breytenbach und E. Tzavella (Leiden: Brill, 2023).

Das ICG bildet derzeit die Grundlage für die Abfassung von 9 Monographien zum Aufstieg des Christentums in Regionen Kleinasiens (Ionien, Untermäander, Phrygien, Galatien), in Griechenland (Korinth und Peloponnes, Attika, Thessalien und Makedonien) und auf dem Balkan. Es ergänzt auch die archäologischen Beweise bei der Erstellung von Monographien über den Aufstieg und die Verbreitung des Christentums. Durch Verweise auf ICG werden die umfangreichen Primärdaten, einschließlich Karten und Bilder, den Lesern der Publikationen online zur Verfügung gestellt. Wenn ICG über Kleinasien und Griechenland hinaus erweitert werden kann, würde es die zukünftige Forschung zum frühen Christentum auf den griechischen Inseln, in Zypern, Syrien und Palästina sowie in Ägypten erheblich erleichtern.

ICG – Inscriptiones Christianae Graecae: Eine Datenbank der frühchristlichen Inschriften Kleinasiens und Griechenlands Authorization of Earlcy Christian Knowledge Claims in Asia Minor and Greece

Medizinische Gutachten des 17. und 18. Jahrhunderts

Katholische Universität Eichstätt-Ingolstadt
Sprache(n) Deutsch mit lateinischen und griechischen Einsprengseln
Modalität(en) geschrieben
Fächer (beschreibend) Sprachwissenschaft (v.a. Sprachgeschichte, Textlinguistik, Fachsprachenforschung), Medizingeschichte, Wissenschaftsgeschichte, Rechtsgeschichte, Kulturgeschichte

Es handelt sich um ein Textkorpus, das 150 transkribierte medizinische Gutachten des 17. und 18. Jahrhunderts aus gedruckten medizinischen Fallsammlungen enthält. Die Texte liegen als Plain-Text-Dateien vor, weisen rudimentäre Annotationen (Zeilenumbruch und Seitenumbruch) auf, aber nur knappe bibliographische Angaben (keinen TEI-konformen Header!).

Niedersorbische Textkorpora

Sorbisches Institut Bautzen
Sprache(n) Niedersorbisch
Modalität(en) geschrieben
Fächer (beschreibend) Sprachwissenschaft, Geschichtswissenschaft, Kulturwissenschaft, Computerlinguistik, Digital Humanities

Unterschieden werden ein „altes“ sowie ein „neues“ Textkorpus (im Aufbau). Beide Korpora sind mit verschiedenen Zugriffsmethoden verbunden. Die Datengrundlage für letzteres umfasst zurzeit (2020) ca. 43 Millionen Tokens. Die Texte werden schrittweise annotiert (u.a. Normalisierung/Lemmatisierung). Die Suche erfordert keine vertieften Kenntnisse über die historische Schreibung und Formenvielfalt, greift aber aktuell noch auf wenig Texte zu. Das alte Textkorpus umfasst mehr als 23 Millionen Tokens, wovon ca. 15 Millionen online zur Verfügung stehen. Die Texte sind nicht annotiert und kaum weiter verarbeitet, es liefert ausschließlich die Originalschreibweise. Außerdem sind die Texte nicht korrigiert, so dass mit (Ab-)Schreibfehlern zu rechnen ist.

https://www.niedersorbisch.de/korpus/

Niklas-Luhmann-Archiv

Universität Bielefeld, Fakultät für Soziologie
Sprache(n) Deutsch, Englisch, Italienisch, Spanisch
Modalität(en) geschrieben, gesprochen
Fächer (beschreibend) Soziologie, Philosophie, Rechtswissenschaft, Erziehungswissenschaft, Literaturwissenschaft, Religionswissenschaft, Politikwissenschaft, Organisationswissenschaft, Wissenschaftsgeschichte

Wissenschaftlicher Nachlass des Soziologen Niklas Luhmann (1927–1998), einem der bedeutendsten Soziologen des 20. Jahrhunderts. Erschließung, Transkription, Edition und Digitalisierung des Zettelkastens mit ca. 90.000 Notizen, der nachgelassenen Manuskripte und anderer Materialien (u. a. Audio- und Videoaufnahmen von Vorträgen und Interviews).

https://niklas-luhmann-archiv.de/

Presseausschnitte online

Herder-Institut für historische Ostmitteleuropaforschung – Institut der Leibniz-Gemeinschaft
Sprache(n) hauptsächlich Deutsch
Modalität(en) geschrieben
Fächer (beschreibend) Geschichte, Zeitgeschichte, Politik, Medienwissenschaft

Über 5 Millionen Ausschnitte dokumentieren die Geschichte, Politik, Kultur und Wirtschaft Ostmitteleuropas von 1916 bis heute. Wir haben uns insbesondere auf eine systematische Analyse regionaler und nationaler Tages- und Wochenzeitungen aus Ostmitteleuropa und dem deutschsprachigen Raum für den Zeitraum von 1952 bis März 1999 konzentriert. Wir bieten umfassende Archive zu Personen, Orten und Themen. Sie können als einzigartige Dokumentation des sozialistischen Experiments in Osteuropa verwendet werden. Rund 10.000 Ausschnitte über Personen sind bereits digitalisiert und mit Metadaten kombiniert, 6.500 davon zusätzlich mit Schrifterkennung behandelt.

https://www.herder-institut.de/pressesammlung/ Übersicht

Soldatenbriefe des 18. und 19. Jahrhunderts

Justus-Liebig-Universität Gießen, Institut für Germanistik
Sprache(n) Deutsch (differenziert in: Norddeutsch, Nordoberdeutsch, Ostmitteldeutsch, Ostoberdeutsch, Westmitteldeutsch, Westoberdeutsch)
Modalität(en) geschrieben
Fächer (beschreibend) Linguistik, Literaturwissenschaft, Kulturwissenschaft, Editionsphilologie, Geschichte, Militärgeschichte, (Neue) Politische Geschichte, (ggf., nach Aufbereitung der Forschungsdaten) Korpuslinguistik, Computerlinguistik

170 „Soldatenbriefe“ aus den Jahren 1745 bis 1872; die Briefe stammen zu einem kleinen Teil aus älteren (nicht mehr urheberrechtlich geschützten), aber zuverlässigen Editionen, vor allem aber aus eigener Archivarbeit, wurden also vom Herausgeber Marko Neumann erstmals nach der Handschrift transkribiert und veröffentlicht. Diese sind über die Webseite des Heidelberger Universitätsverlags Winter verfügbar und können von dort kostenfrei heruntergeladen werden. Dieses Korpus ist sowohl aus linguistischer als auch aus historischer, insbesondere kultur-, literatur- und militärgeschichtlicher Perspektive höchst wertvoll.

Zu den Hürden (aus rechtlicher Sicht) und Schwierigkeiten (mit Blick auf Publikationsform und v.a. das Datenformat) für die Nachnutzung dieser wertvollen Daten vgl. die zu diesem Datenangebot gehörige User Story “Soldatenbriefe des 18. und 19. Jahrhunderts: Von der PDF-Edition zu nachnutzbaren, interoperablen Forschungsdaten”.

Tailored Corpora and Topic Models for Japanese Parliamentary Minutes

Deutsches Institut für Japanstudien
Sprache(n) Japanisch
Modalität(en) geschrieben
Fächer (beschreibend) Japanologie, Ostasienwissenschaften, Geschichte (insb. Begriffsgeschichte), Politikwissenschaft, Linguistik

Die ursprüngliche Datenbank für sprachübergreifende Colexifikationen (CLICS) hat ein computergestütztes Framework für die interaktive Darstellung sprachübergreifender Colexifikationsmuster eingerichtet. Es hat sich als nützliches Instrument für verschiedene Arten der Untersuchung sprachübergreifender semantischer Assoziationen erwiesen, angefangen von Studien zum semantischen Wandel über Muster der Konzeptualisierung bis hin zur sprachlichen Paläontologie. CLICS wurde aber auch wegen offensichtlicher Mängel kritisiert. Aufbauend auf den Standardisierungsbemühungen der CLDF-Initiative und neuartigen Ansätzen für eine schnelle, effiziente und zuverlässige Datenaggregation hat CLICS² die ursprüngliche CLICS-Datenbank erweitert. CLICS³ – die dritte Ausgabe von CLICS – nutzt das in CLICS² entwickelte Framework, um die in der Datenbank aggregierte Datenmenge mehr als zu verdoppeln.

https://clics.clld.org

Zusammenstellung von lexikographischen Projekten aus der Romania

Verschiedene Anbieter, zusammengestellt vom Fachinformationsdienst Romanistik
Sprache(n) Romanische Sprachen (v.a. Französisch, Italienisch)
Modalität(en) in der Regel geschrieben
Fächer (beschreibend) Romanistik (Literaturwissenschaft, Sprachwissenschaft, Kultur- und Medienwissenschaft, Fachdidaktik), interdisziplinär arbeitende Philologien, Kultur- und Medienwissenschaften, Sozialwissenschaften, Digital Humanities

Die Beschreibung der einzelnen Datensätze ist dem jeweiligen Katalogisat zu entnehmen, das neben einer formalen Titelaufnahme (Dublin Core) i.d.R. eine umfassende sachliche Erschließung mit GND-Schlagwörtern, DDC-Hauptklassen und Abstracts enthält. Erfasst wird auch die betroffene Sprache, was eine Filterung nach Einzelsprachen erlaubt.

Webseite

Zusammenstellung von Sprachkorpora aus der Romania

Verschiedene Anbieter, zusammengestellt vom Fachinformationsdienst Romanistik
Sprache(n) Romanische Sprachen (v.a. Französisch, Italienisch, Portugiesisch, Rumänisch, Spanisch), weitere Sprachen, bspw. Übersetzungen, können enthalten sein, z. B. Englisch, Gebärdensprachen
Modalität(en) geschrieben, teilweise gesprochen als Audio- bzw. gebärdet als Video-Korpora mit oder ohne Transkription
Fächer (beschreibend) Romanistik, Sprachwissenschaft, weitere mit Texten arbeitende Disziplinen

Die Beschreibung der einzelnen Datensätze ist dem jeweiligen Katalogisat zu entnehmen, das neben einer formalen Titelaufnahme (Dublin Core) in der Regel eine umfassende sachliche Erschließung mit GND-Schlagwörtern, DDC-Hauptklassen und Abstracts enthält. Erfasst wird auch die betroffene Sprache, was eine Filterung nach Einzelsprachen erlaubt.

Suche Übersicht

Zusammenstellung von Volltextsammlungen aus der Romania (Editionen)

Verschiedene Anbieter, zusammengestellt vom Fachinformationsdienst Romanistik
Sprache(n) Romanische Sprachen (v.a. Französisch, Italienisch), vereinzelt können auch weitere Sprachen, bspw. Übersetzungen, enthalten sein
Modalität(en) vornehmlich geschrieben
Fächer (beschreibend) Romanistik (Literaturwissenschaft, Sprachwissenschaft, Kultur- und Medienwissenschaft, Fachdidaktik), interdisziplinär arbeitende Philologien, Kultur- und Medienwissenschaften, Sozialwissenschaften, Digital Humanities

Die Beschreibung der einzelnen Datensätze ist dem jeweiligen Katalogisat zu entnehmen, das neben einer formalen Titelaufnahme (Dublin Core) i.d.R. eine umfassende sachliche Erschließung mit GND-Schlagwörtern, DDC-Hauptklassen und Abstracts enthält. Erfasst wird auch die betroffene Sprache, was eine Filterung nach Einzelsprachen erlaubt.

Suche Übersicht

Zusammenstellung von Volltextsammlungen aus der Romania (Sammlungen und Editionen)

Verschiedene Anbieter, zusammengestellt vom Fachinformationsdienst Romanistik
Sprache(n) Romanische Sprachen (v.a. Französisch, Italienisch, Portugiesisch, Spanisch), vereinzelt können auch weitere Sprachen, bspw. Übersetzungen, enthalten sein
Modalität(en) vornehmlich geschrieben
Fächer (beschreibend) Romanistik (Literaturwissenschaft, Sprachwissenschaft, Kultur- und Medienwissenschaft, Fachdidaktik), interdisziplinär arbeitende Philologien, Kultur- und Medienwissenschaften, Sozialwissenschaften, Digital Humanities

Die Beschreibung der einzelnen Datensätze ist dem jeweiligen Katalogisat zu entnehmen, das neben einer formalen Titelaufnahme (Dublin Core) i.d.R. eine umfassende sachliche Erschließung mit GND-Schlagwörtern, DDC-Hauptklassen und Abstracts enthält. Erfasst wird auch die betroffene Sprache, was eine Filterung nach Einzelsprachen erlaubt.

Suche Übersicht