Nane Kratzke | Entwicklung eines modularen Frameworks zur generativen Textverarbeitung und Bewertung von Large Language Modellen

Die rasante Entwicklung im Bereich der generativen Künstlichen Intelligenz, insbesondere bei Large Language Models (LLMs), bietet neue Möglichkeiten für die automatisierte Textverarbeitung. Im Rahmen dieser Masterarbeit soll ein flexibles Framework prototypisch entwickelt werden, das verschiedene LLMs integrieren kann, um eine Vielzahl von Textverarbeitungsaufgaben mittels Textverarbeitungsmodulen komponierbar zu automatisieren und deren Qualität abhängig von den gewählten LLMs zu bewerten. Neue Textverarbeitungsmodule sollen einfach ergänzt werden können. Entsprechende Extension Points sind vorzusehen.

Beispielhafte Module zur Textverarbeitung:

Automatisierte Textzusammenfassung in Deutsch und Englisch.
Bidirektionale Übersetzung von Texten zwischen Deutsch und Englisch.
Extrahierung von Informationen aus unstrukturierten Texten.
Rechtschreib-/Grammtik-Korrektur von Texten.
Umformulierung von Texten für spezifische Zielgruppen (“Explain it to me as if I were a five-year-old.”).
Erstellung strukturierter Gliederungen für Facharbeiten und Präsentationen.
Generierung von Multiple-Choice-Fragen basierend auf Texten, z.B. Vorlesungsmanuskripten.

Ziel:

Das Hauptziel dieser Masterarbeit ist es, die Effizienz und Qualität der Textverarbeitung in wissenschaftlichen und hochschulspezifischen Anwendungen zu evaluieren. Neue Sprachmodelle sollen automatisiert mit eingeführten und verwendeten Modellen verglichen werden können. Die Lösung soll dem Administrator der KI-Dienste an der TH Lübeck die Entscheidung erleichtern, für welche Textverarbeitungsmodule bzw. Ketten von Textverarbeitungsmodulen eine Umstellung auf neue oder andere LLMs sinnvoll ist oder nicht.

Methodik:

Literaturrecherche: Analyse bestehender Frameworks und APIs für die Implementierung von Textverarbeitungsmodulen und der Bewertung der Leistungsfähigkeit von LLMs. Es sind geeignete Metriken zur Bewertung von LLMs in verschiedenen Kontexten zu ermitteln und für den Einsatzzweck zu bewerten.
Erstellung eines Referenzdatensatzes: Es soll ein für die TH-Lübeck relevanter Referenzdatensatz erstellt werden. Bspw. mittels Web-Crawlings von Inhalten der Hochschul-Webseiten der TH Lübeck. Der Datensatz muss für Training/Fine-Tuning und Bewertung von LLMs geeignet sein und die spezifischen Besonderheiten der Hochschule geeignet berücksichtigen.
Implementierung: Das Framework sowie die Evaluierungs-Architektur soll Cloud-nativen Prinzipien folgen und auf der bestehenden Kubernetes-Plattform automatisiert betreibbar und mit GitLab CI/CD Pipelines automatisiert deploybar und aktualisierbar sein.
Evaluation: Das Framework sowie die Evaluierungs-Architektur soll an mindestens fünf im Verlaufe der Arbeit abzustimmenden Textverarbeitungsmodulen evaluiert werden. Es ist dabei insbesondere die Auswahl und Bewertung von LLMs für spezifische Textverarbeitungsaufgaben zu betrachten.
Ableitungen von Empfehlungen: Es sind ferner Empfehlungen und Best Practices auf Basis der gesammelten Erkenntnisse abzuleiten und aufzubereiten. Dies umfasst insbesondere die Erstellung eines Bewertungs-Katalogs und Vorgehensmodells zur kontinuierlichen Evaluierung von LLMs. Da es ggf. schwierig werden kann, absolute Vergleiche zu erstellen, ist es möglich, sich relativ an aktuellen kommerziellen “Best-of Class” Modellen, wie bspw. GPT-4 von OpenAI, im Sinne eines Referenzmodells zu orientieren.