Nane Kratzke | Call for Proposals: Bachelor- und Masterarbeiten zu KI-Agenten und dem Model Context Protocol (MCP)

Die Herausforderung: Moderne Sprachmodelle werden immer mächtiger, agieren aber oft isoliert und ohne semantischen Kontext. Das Model Context Protocol (MCP) ist ein neuer Standard, der eine universelle Schnittstelle zwischen Sprachmodellen bzw. KI-Agenten und externen Daten oder Tools schafft. Studierende der Informatik, Wirtschaftsinformatik, Informationstechnologie und des Designs, die sich mit diesem Protokoll vertieft befassen und innovative Implementierungen rund um dieses Protokoll entwickeln möchten, finden hier mögliche Themenfelder.

1. Spezialisierte Tool-Server (Praxis)

Web-Surfing: Entwicklung eines Playwright-MCP-Servers mit Accessibility-Tree-Analyse, um KI-Agenten ein präziseres Web-Surfing zu ermöglichen.
Sandboxed Code-Execution: Ausführung von generiertem Code zur Lösung programmatisch lösbarer Probleme.
Messaging: Integration von Kommunikations-Diensten wie Elements, E-Mail etc. zur Maschine-Mensch, Mensch-Maschine aber auch Maschine-Maschine Kommunikation.
OCR von PDF-Dokumenten und Bildern: Effiziente Textextraktion aus Dokumenten und Bildern um KI-Agenten eines besseres Dokumenten, aber auch Bildverständnis zu ermöglichen.
Web-Search und Research: Automatisierte zur Suchen von und Recherche in Online-Quellen zur Ermittlung faktengesicherter Sachverhalte.

2. Architektur & Orchestrierung (Konzeptionell)

MCP-Routing: Entwicklung eines Systems, mit dem LLMs dynamisch erkennen können, welche verfügbaren MCP-Server für eine spezifische Aufgabe am besten geeignet sind, anstatt alle Tools statisch im Kontext zu laden. Durch die Implementierung eines intelligenten Dispatchers soll der Kontext-Overhead minimiert und die Präzision der Tool-Auswahl erhöht werden, indem nur die relevanten Tools basierend auf der Semantik der Benutzeranfrage aktiviert werden.
Multi-Agent Orchestration (Architektur): Konzeption eines Frameworks, in dem mehrere spezialisierte MCP-Server koordiniert werden, um komplexe, mehrstufige Workflows autonom zu lösen (z.B. Datenextraktion via Web-Surfing → Analyse via Code Sandbox → Berichterstellung via pandoc o. ähnlichen Tools). Diese Orchestrierungsebene soll als strategischer Planer fungieren, der Aufgaben in Teilziele zerlegt, Zwischenergebnisse validiert und die entsprechenden MCP-Ressourcen sequenziell oder parallel ansteuert, um eine konsistente Lösung zu erarbeiten und den Haupt-Agenten von diesen Steuerdetails zu entlasten.
Self-Improving MCP-Server Interactions (Architektur): Implementierung eines Feedback-Loops, durch den das System die Effizienz der Tool-Nutzung kontinuierlich optimiert. Durch die Analyse von Erfolgsraten und Fehlermustern bei den Aufrufen von MCP-Servern lernt die “Architektur”, welche Tool-Kombinationen für bestimmte Problemklassen am effektivsten sind. Dies soll eine iterative Verfeinerung der Prompt-Strategien und Parameterkonfigurationen ermöglichen, sodass die Interaktion zwischen LLM und MCP-Server über die Zeit hinweg präziser und ressourcensparender werden.

3. Analyse & Benchmarking (Wissenschaftlich)

Effizienz-Studien: Ein zentraler Fokus liegt auf dem quantitativen Vergleich zwischen dem Model Context Protocol (MCP) Tool-Use und klassischen Retrieval-Augmented Generation (RAG) Architekturen oder kontextfreien Generierungsansätzen. Während RAG primär auf der Bereitstellung relevanter Dokumentenausschnitte basiert, erlaubt MCP einen dynamischeren Zugriff auf strukturierte Datenquellen und externe Funktionen. Die Analyse kann sich hierbei auf unterschiedliche Aspekten konzentrieren: bspw. Token-Effizienz, Qualität der Antworten, Präzision der Antworten, Faktentreue der Antworten und ähnl.
Fehleranalyse: Ein weiterer wesentlicher Aspekt kann auf der Untersuchung der Robustheit von Agenten-Workflows bei der Nutzung standardisierter MCP-Schnittstellen liegen. Hierbei soll analysiert werden, wie resilient die Systeme gegenüber inkonsistenten Tool-Outputs oder Netzwerkverzögerungen/-fehlern reagieren. Durch systematische Stresstests und die Implementierung von Edge-Case-Szenarien soll ermittelt werden, an welchen Stellen die Orchestrierung der Agenten versagt und wie durch verbesserte Fehlerbehandlungsmechanismen innerhalb des Protokolls eine höhere Systemstabilität erreicht werden kann.
Faktentreue und Halluzinationen: Sie können auch die Auswirkung von MCP auf die faktische Korrektheit der generierten Antworten evaluieren. Es gilt zu prüfen, ob die strikte Trennung zwischen dem Reasoning-Modell und der externen Datenquelle über MCP die Tendenz zu Halluzinationen signifikant senkt. Durch den Vergleich von Antworten, die auf rein parametrischem Wissen basieren, gegenüber solchen, die über verifizierte MCP-Tools generiert wurden, soll eine Metrik zur Messung der Grounding-Qualität entwickelt werden, die eine objektive Bewertung der Antworttreue ermöglicht.

Interesse? Schreiben Sie mir gerne Ihren Vorschlag in Form eines kurzen Exposés per Mail

Bitte gehen Sie (wenn möglich) auf folgende Punkte ein:

Titel & Kontext: Anwendungsfeld, Produkt oder Technologie.
Problemstellung & Relevanz: Welche Lücke (Pain/Gap) wollen Sie adressieren? (z. B. „Wettervorhersage via Sprachmodelle“). Warum ist dies wichtig? Was ist Ihre Motivation?
Zielsetzung & Abgrenzung: Was wollen Sie konkret analysieren/entwickeln und was schließen Sie bewusst aus?
Stand der Technik: Wichtigste bestehende Ansätze/Tools. Wo setzt Ihre Arbeit an und was ist der Mehrwert?
Technischer Ansatz: Erste Ideen zu Architektur, Algorithmen, Modellen, Datenquellen und Tech-Stack.
Evaluation: Wie beabschichten Sie die Tragfähigkeit ihres Ansatzes zu evaluieren? (z. B. Metriken wie Accuracy, Latenz, Throughput oder Vergleich via Benchmarks/Datensätze).
Risiken & Voraussetzungen: Notwendige Ressourcen (Daten, Hardware etc.) und Strategien zur Bewältigung kritischer Punkte (ggf. Plan B).
Literatur: Herangezogene Quellen für das Exposé (nicht nur Online-Quellen oder KI-Inhalte).

Bachelor-Studierende sollten sich auf Themenbereich 1, Master-Studierende auf Themenbereich 2 oder 3 fokussieren.