Herzlich Willkommen im Blog! Link zur Hauptseite des Blogs Der Blog ist umgezogen! Zu finden sind unsere Erlebnisse nun hier

Hier berichten wir von den großen und kleinen Erlebnissen unserer Ausbildungsreise – von Exkursionen in alte und neue Bibliotheken, von Studienfahrten und Praktika in fernen und nicht ganz so fernen Städten, von Vorträgen, Konferenzen und natürlich dem Studienleben in München.

Herzlich Willkommen im Blog! Link zur Hauptseite des Blogs

Weltkarte




„Eigentlich kann Transkribus nichts.“ - Aber nur eigentlich.

Avatar of Student/in Student/in | 17. Juni 2022 | Gastbeitrag, Allgemeines, Fachliches, Vortrag | Archiv



Lex Baioariorum - BSB Clm 5260

Es klingt verlockend: Transkription von historischen Dokumenten auf Knopfdruck - von jedem Ort, aus jedem Zeitalter und in jeder Sprache. Transkribus, ein webbasiertes Programm zur Text- und Strukturerkennung unter Federführung der Universität Innsbruck soll das möglich machen. Am 10.05.2022 stellte PD Dr. Robert Klugseder von der Österreichischen Akademie der Wissenschaften die Transkriptionssoftware vor. Im Hörsaal des Bayerischen Hauptstaatsarchivs in München führte er neben interessierten Archivarinnen und Archivaren auch externe Gäste der LMU durch einen spannenden, mit vielen Praxisbeispielen angereicherten Vormittag.

„Eigentlich kann das Programm erstmal nichts“, machte Herr Dr. Klugseder schon zu Beginn seines Vortrages deutlich. Denn zwar verfüge die teils cloudbasierte Software – die im Gegensatz zu üblichen OCR-Programmen ausgefeilte HTR-Algorithmen (HTR = Handwritten Text Recognition) nutzt – über das Rüstzeug, historische Texte mit einer Fehlerquote von unter 5 % zu transkribieren. Ganz ohne paläographische Expertise gehe es aber definitiv nicht.

Da Transkribus nur Sätze, Schriftzeichen und deren Bestandteile entziffern kann, wenn es die so oder so ähnlich schon einmal zu Gesicht bekommen hat, muss es zunächst mit Scans und handgemachten Mustertranskriptionen gefüttert werden. 5 Textseiten sind das Minimum. Im Anschluss muss die KI trainieren. Je mehr Übungsmaterial zu einer Handschrift sie im sogenannten Model Training bekommt, desto besser. Für ein befriedigendes Resultat sollten etwa 300 Textseiten eingespeist werden. Die KI transkribiert, ein Mensch korrigiert ihre Fehler, die KI lernt, optimiert ihre Mustererkennung und so fort. In diesem Prozess entsteht ein immer feineres Modell – allerdings jeweils nur für eine einzige Handschrift.

Seit Projektstart im Jahr 2019 sind so – auch mithilfe der über 37.000 registrierten Transkribus-User – bereits tausende Schriftmodelle erstellt worden, darunter das paläographische Flaggschiff German Kurrent. Aus 126 Einzelschriftmustern zusammengesetzt ist es ein guter Ausgangspunkt für die teilautomatisierte Transkription deutschsprachiger Schriftstücke aus dem 19. Jahrhundert. Die Betonung liegt auf Ausgangspunkt. Ohne schriftkundliche Kompetenzen wird man mit Transkribus (noch) keine druckreifen Texte erzielen können – das Programm ist sozusagen noch in der Ausbildung, wird aber – sofern es von menschlichen Profis korrigiert wird – immer besser.

Textkritischen Editionen kann Transkribus keinesfalls das Wasser reichen. Aber es kann sowohl dem schriftkundlich unbedarften Laien einen ersten (!) Zugang zum Dachbodenfund ermöglichen als auch den Paläographie-Experten erheblich entlasten – insbesondere bei langen, gleichförmigen Texten sei es eine große Arbeitserleichterung, betonte Robert Klugseder.

Der Forscher hat für sein aufwendiges Homepage-Projekt zur Geschichte des Klosters Aldersbach bereits einige KI-Transkriptionen erarbeitet und online zur Verfügung gestellt. Darunter auch Rechnungsbücher, deren tabellarische Form die Software allerdings noch stark überfordert. Über Klugseders ausgefeiltes Modell zur Transkription der Aldersbacher Traditions- und Kopialbücher (Bestand des BayHStA, Kloster Aldersbach Amtsbücher und Akten) lässt sich hingegen staunen. Selbst mehrdeutige lateinische Abkürzungen – das Schreckgespenst des Archivschülers – vermochte Transkribus weitgehend korrekt aufzulösen – für 15-20 Cent pro Seite und nach vielen Stunden Training allerdings.

Wer Transkribus testen möchte: Informationen, die Mitgliedschaft und die kostenfreie Basisversion gibt es unter: https://readcoop.eu/de/.

 

Marius Wilnat

(Archivschule München)

 

Bildnachweis: BSB-Hss Clm 5260, Digitalisat, CC BY-NC-SA 4.0.

Keine Kommentare mehr möglich!

1 Kommentar(e)

mb |

22. Juni 2022

immer wieder faszinierend!