Nane Kratzke

Thesis:

Web-UI zum Teilen von Machine-Learning Datensätzen mittels Delta-Sharing

Published: 11 Jul 2022 (latest update: 08 Aug 2022)
Type: Master (M. Sc.)
State: open
Study: Informatik
Language: Deutsch
Company: myLab

Im Machine Learning ist es eine erhebliche Hilfe Datensätze einfach und komfortabel mit anderen Nutzern teilen zu können.

Mit Delta Sharing gibt es hierzu ein offenes Protokoll für die sichere gemeinsame Nutzung von Datensätzen, das u.a. die gemeinsame Nutzung von Daten mit anderen Unternehmen und Forschungseinrichtungen unabhängig von den verwendeten Machine Learning Plattformen erleichtert.

Mit dem Delta-Sharing Reference Server steht hier ein Open Source Produkt zur Verfügung, dass eine REST-basierte API zum Teilen von Datensätzen bereitstellt.

Ziel dieser Arbeit ist es zu untersuchen, wie der Delta Sharing Server für das myLab und JupyterHub genutzt werden kann, um das Teilen von Datensätzen zum Zwecke

  • der Lehre,
  • der Forschung
  • und des Transfers (Teilen ggf. schützenswerter Datensätze von Unternehmen)

zu vereinfachen.

Hierzu sollen die Möglichkeiten und Grenzen des Delta Sharing Servers ermittelt werden und auf Basis dieser Analyse eine Web-UI in Ergänzung der Delta-Sharing REST API entwickelt werden, die es Lehrenden, Forschenden und Unternehmen ermöglicht, Datensätze (ggf. mit Zugriffsbeschränkungen) einfach für Machine Learning und Data Science Fragestellungen zu teilen.

Datensätze müssen dabei mit geeigneten Meta-Daten versehen werden können, die es ermöglichen, Datensätze sinnvoll durchsuchen zu können.

Die Lösung soll in Kubernetes automatisiert deploybar sein. Eine entsprechende Infrastruktur wird im Rahmen der Abschlussarbeit bereitgestellt werden. Die Implementierung ist vorzugsweise mittels Python vorzunehmen.

Im Sinne des Open Source Gedankens sollte die Autor:in anstreben, die Lösung als Open Source Projekt im Anschluss der Arbeit der Allgemeinheit zur Verfügung zu stellen und über die Abschlussarbeit hinaus als Open Source Produkt fortzuführen.