Nane Kratzke

Thesis:

Bereitstellung von Speech-to-Text-Modellen als REST-basierter Microservice

Published: 15 May 2023 (latest update: 14 Sep 2023)
Type: Bachelor (B. Sc.)
State: completed
Study: Informatik
Language: Deutsch
Author: Patrick vom Hagen
Company: myLab

Huggingface ist eine Online-Plattform für die KI-Community, die Deep-Learning-Modelle (unter anderem für Question-Answering) frei verfügbar und nutzbar bereitstellt. Insbesondere Deep-Learning-basierte Text-to-Speech (TTS) und Speech-to-Text (STT) Lösungen können viele Bereiche des alltäglichen Lebens durch sprachbasierte Interfaces verändern und vereinfachen.

Deep-Learning Modelle werden bislang häufig in Form von Programmbibliotheken (oft Python) zur Verfügung gestellt und müssen somit programmatisch genutzt werden. Oft ist dabei die Sprachbindung ein Problem, insbesondere wenn oben genannte Funktionalitäten in Komponenten erforderlich werden, die nicht in Python implementiert wurden oder diese Bibliotheken auf Devices ausgeführt werden müssen, die bspw. keine geeignete Hardware (z. B. Mobile Devices ohne GPU) für das Inferencing haben. In diesen Fällen kann eine Auslagerung in externe Remote-Services sinnvoll sein.

In dieser Abschlussarbeit soll untersucht werden, ob man mit einem REST Service, die Verwendung und Bereitstellung von TTS/STT-Modellen vereinfachen kann. Ziel dieser Arbeit ist es, auf Huggingface bereitgestellte TTS/STT-Modellen webbasiert mittels einer Web UI und einer REST-API in Form eines Microservice zur Verfügung zu stellen.

  • Der Microservice soll auf Hugging Face bereitgestellte und bereits trainierte Modelle für das Inferencing mittels einer REST-API bereitstellen.
  • Die Funktionalität des KI-Modells soll ergänzend im Rahmen einer Web UI demonstriert werden.
  • Die Lösung soll in Kubernetes automatisiert deploybar sein. Eine entsprechende Infrastruktur wird im Rahmen der Abschlussarbeit bereitgestellt werden. Die Implementierung ist vorzugsweise mittels Python vorzunehmen.

Im Sinne des Open Source Gedankens sollte die Autor:in anstreben, die Lösung als Open Source Projekt im Anschluss der Arbeit der Allgemeinheit zur Verfügung zu stellen und über die Abschlussarbeit hinaus als Open Source Produkt fortzuführen.