Die neuen künstlich-intelligenten Kolleg:innen

06.03.2024 | Erfahrungen mit ChatGPT und Co im Archiv - Teil 1

Künstliche Intelligenz ist heutzutage in aller Munde. Gleichwohl die Algorithmen nicht neu sind, haben vor allem mehr Rechenleistung und die Verfügbarkeit von großen Datenmengen zu erstaunlichen Ergebnissen und Durchbrüchen auf dem Gebiet der sogenannten Künstlichen Intelligenz (KI) geführt. Besonders bemerkenswert war der Impact von ChatGPT seit dem Jahr 2020, der einen neuen Boom im Bereich von KI Anwendungen, speziell basierend auf Large Language Models (LLMs), ausgelöst hat. Auch vor der Archivwelt macht dieses Thema nicht Halt.

Bild eines Roboters in einem Archivmagazinraum
Der Traum ist schon recht alt: Durch immer größere Effizienz und technischen Fortschritt sinken Arbeitszeiten wie auch Arbeitslast und viele -vor allem repetitive Aufgaben- werden von Maschinen gelöst. Kommt also bald der KI-Archivar?
 
Nun, mittelfristig wahrscheinlich nicht. Zum einen hat das Berufsbild der Archivarin/des Archivars einen hohen Anteil an nicht-automatisierbaren, händischen Tätigkeiten, wie etwa dem Bewerten, Reinigen, Entmetallisieren und Verpacken von Archivalien, und erfordert örtliche Flexibilität (Visitation von abgebenden Stellen, Betreuung von zugeordneten Archiven, ...). Zum anderen sind Archivstücke einzigartig, zuweilen sehr individuell oder nicht immer serialisierbar.
 
Nichtsdestoweniger gibt es Aspekte im Berufsbild, die durchaus durch die jüngsten Entwicklungen im Bereich der KI beeinflusst werden. Dazu zählen etwa Informations- und Wissensmanagement, Transkription von Informationen, Bereinigung und Vereinheitlichung von Daten, Pflege von Archivfachinformationssystemen und viele Bereiche im Umgang mit elektronisch entstandenen Massendaten. Gerade hier kann und wird Künstliche Intelligenz, assistierend, das Berufsbild weiter umformen und beeinflussen. Nicht ganz unrichtig ist daher die überstrapazierte Weisheit diverser (zum Teil selbsternannter) Digitalpioniere, dass nicht KI einen Arbeitsplatz ersetzen wird, sondern jemand, der mit KI arbeitet. 
 
In diesem Beitrag soll daher speziell der Bereich Wissensmanagement etwas näher beleuchtet werden. LLMs werden mittlerweile für verschiedene Zwecke in diesem Bereich eingesetzt: So gibt es Tools, die es erlauben, mit PDF Dateien zu chatten, Texte zusammenzufassen, Orthografie und Grammatik zu korrigieren oder Texte zu übersetzen. Auch ist es möglich, spezielle Modelle mit eigenen Wissensständen zu trainieren. Dies erlaubt eine hohe Anpassung auf kontextuell relevante Informationen und verringert das Risiko von sogenannten "Hallucinations" -also Aussagen, die sich ein Large Language Model nur "ausgedacht" hat. Wer haftungspflichtig ist, wenn ein Chatbot im Kundenkontakt steht, sollte in jedem Fall auch Teil einer Risikoabschätzung beim Einsatz von KI sein - und mithin auch Teil einer ethischen Betrachtung. Vergleiche hierzu etwa den kürzlichen Fall von Air Canada, die Schadenersatz an einen Reisenden zahlen musste, weil er von einem Chatbot falsch informiert wurde: hier, hier, hier oder hier.

Man darf jedoch nicht vergessen, auch wenn ein Gespräch mit Bots wie Gemini, ChatGPT, LLaMA etc. sehr überraschend, unterhaltsam, informativ oder witzig ist, handelt es sich hierbei um Computer Modelle, welche darauf trainiert sind, Sprache zu imitieren und dem Nutzenden zu gefallen. Welche Daten dabei genutzt wurden, diese Modelle zu trainieren, ob die Informationen, welche dabei mit einflossen, korrekt sind, und wie widersprechende Informationen gewichtet werden, erschließt sich einem Nutzenden von außen nicht. Ebenso ist davon auszugehen, dass Informationen, die nicht im Internet verfügbar sind (und dies betrifft z. B. einen Großteil von Informationen in Archiven), auch nicht "erfragt" werden können.
 
Ein Beispiel für "Hallucination" ist eine Frage an GPT zum Fundamentaltheologen Eugen Biser. Obwohl wir den Nachlass im Erzbischöflichen Archiv Freiburg haben, wissenschaftlich erschließen und mir der zuständige Kollege versichert hat, dass es keinerlei Informationen über das Lieblingsgericht von Eugen Biser gibt oder gar seine Einstellung zum Thema "Pommes Schranke", wusste der Bing Copilot (basierend auf GPT-4) mehr zu berichten. Gleichwohl ich ihm einige Informationen präsentierte, verlinkte er sogar angebliche Belegstellen und Zitate:
 
Bild von Chatausschnitt mit KI über Eugen Biser
 
Gegebenenfalls wird es also auch eine der leidlichen Aufgaben der Archive der Zukunft sein, von KI generierte Aussagen zu belegen oder zu verwerfen. Dass hier gegebenenfalls auch Klischees und Vorurteile beim Trainieren von KI mitkultiviert werden, bzw. KI entsprechend "biased" sein kann, ist ebenfalls ein Aspekt, den man mitbedenken sollte. Hier daher ein Beispiel, wie die bildgenerative KI Dall-E sich das Erzbischöfliche Archiv Freiburg sowie das dort arbeitende Team "vorstellt":
 
Bild wie sich KI die Mitarbeitenden des  Erzbischöfliches Archivs vorstellt
Ein KI generiertes Bild vom angeblichen Team des Erzbischöflichen Archivs in Freiburg.
 
 
KI generiertes Bild vom Erzbischöflichen Archiv
Ein durch KI generiertes Bild vom Erzbischöflichen Archiv in Freiburg. Der Unterschied zum "echten" Archiv könnte größer nicht sein.

Das Experiment zum Thema "Digitale Langzeitarchivierung"
Um zu schauen, wie die hinter sprachgenerativen KIs liegende Ontologie und Wissensorganisation liegt, habe ich zusammen mit ChatGPT (quasi "im Gespräch") ein kleines Heft generiert. Um den inhaltlichen Output auch einschätzen zu können, entschied ich mich als Zielformat für eine "Handreichung" zum Thema digitale Langzeitarchivierung. Auch wenn die meisten Inhalte fachlich nicht falsch sind, sind sie zuweilen unpräzise oder recht allgemein gehalten. Spannend war dabei aber viel mehr, wie ChatGPT hier als Spiegel einer großen Menge von Aussagen fungiert und funktioniert. Daher ist dieses "Opus minor" weniger ein Werk über das Thema Langzeitarchivierung als vielmehr darüber, wie wir uns das Thema digitale Archivierung -vermittelt über Millionen von Datensätze- vorstellen. 
 
Das gesamte Werk zum Selbststudium können Sie weiter unten downloaden. Es handelt sich dabei ausdrücklich um kein Handbuch, Handreichung oder sonstiges Dokument für den praktischen Einsatz (!), sondern lediglich um Anschauungsmaterial für Interessierte, was sprachgenerative KIs (im derzeitigen Anfangsstadium) leisten können und konnten. Gleichwohl enthält es auch einige Fehler und ich gebe ausdrücklich keine Gewähr auf fachliche Korrektheit. 
 
 
Tony Franzky,
Erzbischöfliches Archiv Freiburg
 
 
 
KI generiertes "Handbuch": "Bit, Bytes and Beyond" zum Thema digitale Langzeitarchivierung von Tony Franzky und ChatGPT: