Die Entwicklung von Chatbots, die personenbezogene Daten verarbeiten, steht vor den Herausforderungen der Einhaltung der Datenschutz-Grundverordnung (DSGVO). Es kann notwendig sein, personenbezogene Daten in Texteingaben erkennen und anonymisieren zu müssen, bevor sie von organisationsexternen Sprachmodellen oder APIs verarbeitet werden.
Die vorliegende Arbeit soll untersuchen, wie eine solche Pseudonymisierung mittels einer lokalen Vorverarbeitung realisiert werden kann. Dies könnte bspw. eine Named Entity Recognition (NER) mittels Sprachmodellen oder anderer Verfahren des Natural Language Processing (NLP) umfassen. Auf diese Weise könnte sowohl die Privatsphäre der Nutzer geschützt werden, als auch die Nutzung leistungsfähiger kommerzieller Sprachmodelle rechtskonform ermöglicht werden.
Die Zielsetzung dieser Arbeit besteht darin, einen Proof-of-Concept Prototypen zu entwickeln, der sich an folgender Idee orientiert:
- Schritt 1: Lokale Entitätserkennung in Texteingaben und Markierung dieser Entitäten
- Schritt 2: Lokale Pseudonymisierung markierter Entitäten
- Schritt 3: Weiterreichung pseudonomysierter Prompts und Gesprächsverläufe an externe Sprachmodelle
- Schritt 4: Lokale Rückersetzung von Pseudonymen in den Antworten externer Sprachmodelle (ggf. während des Streamings)
Aufgaben:
- Analyse der DSGVO: Untersuchung von Erfordernissen, die sich aus der DSGVO hinsichtlich des Schutzes personenbezogener Daten ergeben. Ableitung entsprechender Pseudonomynierungsanforderungen.
- Analyse existierender Pseudonymisierungsansätze: Literaturrecherche hinsichtlich existierender und für den Anwendungsfall geeigneter Ansätze zur Pseudonymisierung von Texten.
- Entwicklung einer Architektur zur Pseudonomysierung von Entitäten und deren Rückersetzung: Hierbei sollen personenbezogene Daten bei Chatbot-Kommunikationen automatisch pseudonymisiert werden. Personenbezogene Daten (z. B. Namen, Adressen, IBANs) sollen mithilfe lokaler NLP-Techniken erkannt und durch Pseudonyme ersetzt werden. Anschließend wird der pseudonymisierte Text an ein externes Sprachmodell übermittelt, das Antworten generiert – ohne dass Originaldaten preisgegeben werden. Falls erforderlich, werden die Pseudonyme anschließend wieder in die Originalwerte zurückübersetzt, um eine korrekte Kommunikation zu gewährleisten.
-
Prototypische Implementierung und Evaluierung der Lösung: Die Lösung soll prototypisch implementiert und hinsichtlich folgender Kriterien beurteilt werden:
- Genauigkeit der Entitätserkennung und Pseudonymisierung: Bewertung der Fähigkeit der Lösung, personenbezogene Daten in Texten korrekt zu erkennen und zu pseudonymisieren.
- Performance der lokalen Pseudonymisierung: Messung von Antwortzeit und Durchsatz (ggf. unterschiedlicher Pseudonymisierungsstrategien).
- Vergleich der Antwortqualitäten von Sprachmodellen mit und ohne vorgeschaltete lokale Pseudonymisierung.
- Validierung, ob eine vorgeschaltete lokale Pseudonymisierungslösung tatsächlich keine Rückschlüsse auf pseudonymisierte Originaldaten zulässt (ggf. Aufzeigen von Grenzen des Ansatzes)
- Formulierung von Lessons Learned und Empfehlungen für den Einsatz untersuchter Pseudonymisierungslösungen (Stärken, Schwächen, Grenzen der Anwendbarkeit)