KI in historischen Wörterbüchern und Textcorpora

Aktuelles

veröffentlicht am 05. Dezember 2025

Im Rahmen des Akademieprojekts ›Mittelhochdeutsches Wörterbuch‹ findet am 10. Dezember an der Akademie der Wissenschaften und der Literatur ein Arbeitsgespräch zum Thema ›KI in historischen Wörterbüchern und Textcorpora‹ statt. Ziel der Veranstaltung ist der Ideenaustausch über den wirksamen Einsatz von KI in der Forschung und die Vernetzung unter den Wissenschaftler:innen.

Die thematischen Schwerpunkte des Gesprächs liegen auf den Erfahrungen der Beteiligten mit KI-Ansätzen und Möglichkeiten, die bisherigen Ansätze auszubauen. Außerdem besprechen die Forscher:innen die Herausforderungen bei der Anwendung von KI im Bereich der historischen Wörterbücher und Textcorpora. Diese sind einerseits bedingt durch die große Formenvielfalt einzelner Wörter, die u.a. auch auf noch nicht vorhandene Orthographie oder regionale Besonderheiten zurückgeht, sowie andererseits durch die Unterrepräsentation der relevanten Sprachstufen in Modellen, die ›das Internet‹ als Trainingsdaten nutzen. In dem Arbeitsgespräch geht es auch um die folgenden Fragen:

  • Gruppierung von Belegstellen eines Lemmas nach Ähnlichkeit
  • distributionelle Semantik/Word-Embeddings als Grundlage heutiger KI-Ansätze
  • Lemmatisierung von Belegstellen zur Vorbereitung datengetriebener Wörterbucharbeit
  • semantische Auszeichnung und Erschließung von historischen Texten sowie Wörterbuchartikeln 

Das Gespräch wird von Patrick D. Brookshire (Digitale Akademie der AdWL) und Jonas Richter (Niedersächsische Akademie der Wissenschaften zu Göttingen) organisiert.

Beteiligte Wissenschaftler:innen:

Niels Bohnert (Trierer Arbeitsstelle der AdWL)
Dr. Luise Borek (Technische Universität Darmstadt & Akademienunion)
Julia Hintersteiner (Paris Lodron Universität Salzburg, Österreich)
Dr. Nora Ketschik (Universität Stuttgart)
Sarah Oberbichler (Leibniz-Institut für Europäische Geschichte in Mainz)
Ismail Prada Ziegler (Universität Bern, Schweiz)
Ute Recker-Hamm (Trierer Arbeitsstelle der AdWL)
Jan Schaffert (Niedersächsische Akademie der Wissenschaften zu Göttingen)
Dr. Tobias Streck (Universität Freiburg)
Dr. Stefan Tomasek (Julius-Maximilians-Universität Würzburg)


Das Langzeitvorhaben ›Mittelhochdeutsches Wörterbuch‹ (MWB) erstellt ein Epochenwörterbuch zum hochmittelalterlichen Deutsch der Zeit von 1050 bis 1350. Es bearbeitet den Wortschatz und Wortgebrauch des gesamten Spektrums der aus diesem Zeitraum überlieferten deutschsprachigen Texte, des Nibelungenliedes und der klassischen mittelhochdeutschen Epik und Lyrik ebenso wie der deutschsprachigen Urkunden, Rechtsbücher, Chroniken und Sachtexte oder der Werke der deutschsprachigen Mystik. Das MWB ist ein interakademisches Projekt der Akademie der Wissenschaften und der Literatur Mainz und der Akademie der Wissenschaften zu Göttingen.

Walther von der Vogelweide. ›Große Heidelberger Liederhandschrift - Cod. Pal. germ. 848‹. Mittelhochdeutsches Wörterbuch. Universitätsbibliothek Heidelberg. CC BY-SA 3.0 DE.