Netidee Blog Bild
Beliebige Computerstimmen für AsTeRICS Grid
Wie neue Text-to-Speech-Stimmen (TTS) einfach in AsTeRICS Grid integriert werden können (28.03.2024)
Förderjahr 2023 / Projekt Call #18 / ProjektID: 6735 / Projekt: AsTeRICS Grid

Der aktuelle Boom von KI wirkt sich auch positiv auf die Möglichkeiten für hochqualitative computergenerierte Stimmen aus. Nun ist es möglich in AsTeRICS Grid beliebige dieser Stimmen zu verwenden um so deren Potentiale für UK auszuschöpfen.

Im Bereich der künstlichen Intelligenz wurden in den letzten Jahren bedeutende Fortschritte erzielt. Auch für computergenerierten Stimmen hat das einen Aufschwung bedeutet und viele kommerzielle Anbieter haben ihre diesbezüglichen Angebote stark ausgebaut und auch einige freie Alternativen wurden entwickelt. Ein Beispiel für eine sehr interessante aktuelle Entwicklung ist YourTTS, welches es ermöglicht mit sehr kurzem Trainingsmaterial eine künstliche Kopie einer Stimme zu erzeugen. Dieses Projekt wurde auch bereits für eine Forschungsarbeit an der TU Graz verwendet.

Natürlich ist es interessant diese Entwicklungen auch für den Bereich der Unterstützten Kommunikation verfügbar zu machen, um so Menschen ohne eigene Stimme eine hochqualitative künstliche Stimme zur Verfügung zu stellen. In AsTeRICS Grid war es bisher nur möglich über die Web Speech API jene Stimmen zu verwenden, die auf dem jeweiligen Betriebssystem (z.B. Windows, Android, iOS) installiert sind. Da neuartige KI-Stimmen oftmals keine direkte Integration in die Betriebssysteme ermöglichen, waren diese bisher nicht für UK in AsTeRICS Grid verwendbar.

Um das zu ändern, wurde nun im Rahmen von netidee eine universell verwendbare "Brücke" für die Verwendung beliebiger Computerstimmen entwickelt. Ein zusätzliches, in Python geschriebenes Programm stellt eine standardisierte Schnittstelle (REST API) zur Verfügung, welche AsTeRICS Grid mit beliebigen "Providern", also Spracherzeugungs-Diensten, verbindet. Abbildung 1 veranschaulicht dieses Konzept. Der Vorteil von dieser Vorgehensweise ist, dass recht einfach beliebige, neue Provider hinzugefügt werden können, ohne dass AsTeRICS Grid verändert werden muss.

Konzept der "Brücke" zwischen AsTeRICS Grid und Spracherzeugungs-Diensten
Abbildung 1: Konzept der "Brücke" zwischen AsTeRICS Grid und Spracherzeugungs-Diensten

In der ersten Implementierung wurden folgende Spracherzeugungs-Dienste integriert:

  • Mycroft Mimic 3 - freies Projekt für offline Spracherzeugung mit 40 verfügbaren hochqualitativen Stimmen in vielen Sprachen
  • Piper - ebenfalls ein freies Projekt mit 30 Offline-Stimmen in verschiedenen Sprachen
  • Microsoft Azure Text-to-Speech - kommerzieller Anbieter mit über 200 online verfügbaren, hochqualitativen Stimmen
  • pyttsx - einfach zu verwendende Bibliothek für Python, die wiederum verschiedene Anbieter einbinden kann.

Die Dokumentation für die Verwendung der "Brücke" findet sich im entsprechenden Projekt auf GitHub.

Neben dieser Entwicklung, welche derzeit in der Beta-Version von AsTeRICS Grid testbar ist, wurden mittlerweile auch folgende, durch netidee geförderte Features von AsTeRICS Grid in die Hauptversion veröffentlicht:

Details zu diesen Entwicklungen sind in den Release Notes der aktuellen Version zu finden, worin auch die Dokumentation zu diesen Features verlinkt ist.

Tags:

Unterstützte Kommunikation Text-to-Speech barrierefreiheit

Benjamin Klaus

Profile picture for user Benjamin Klaus
Technik hat mich immer schon fasziniert und dementsprechend wählte ich auch meine Ausbildung. Nach der HTL in St. Pölten studierte ich Softwareentwicklung an der TU Wien und danach "Health Assisting Engineering" an der FH Campus Wien. Noch faszinierender wird Technik für mich, wenn sie Menschen eine echte Hilfe ist, das Leben bereichert und lebenswerter macht. Der Bereich der Assistierenden Technologien ist ein Forschungsgebiet, in dem genau das Wirklichkeit wird: Menschen mit Behinderung bekommen durch Technik wieder neue Perspektiven und können sonst undenkbare Möglichkeiten für Teilhabe und Selbstbestimmung (wieder-)erlangen.

Ich durfte an der FH Technikum Wien in zwei Forschungsprojekten zu Assistierenden Technologien mitarbeiten und habe dabei ein besonderes Interesse für Unterstützte Kommunikation (UK) entdeckt. Dieses Teilgebiet der Assistierenden Technologien beschäftigt sich mit der Frage, wie Menschen ohne Lautsprache Wege zur zwischenmenschlichen Kommunikation eröffnet werden können. Eine Möglichkeit dafür sind Apps für Kommunikation über Symbole. Mit "AsTeRICS Grid" haben wir an der FH Technikum Wien eine freie Software zu genau diesem Zweck entwickelt, die ich nun im Rahmen von netidee weiterentwickeln darf.
CAPTCHA
Diese Frage dient der Überprüfung, ob Sie ein menschlicher Besucher sind und um automatisierten SPAM zu verhindern.
    Datenschutzinformation
    Der datenschutzrechtliche Verantwortliche (Internet Privatstiftung Austria - Internet Foundation Austria, Österreich würde gerne mit folgenden Diensten Ihre personenbezogenen Daten verarbeiten. Zur Personalisierung können Technologien wie Cookies, LocalStorage usw. verwendet werden. Dies ist für die Nutzung der Website nicht notwendig, ermöglicht aber eine noch engere Interaktion mit Ihnen. Falls gewünscht, treffen Sie bitte eine Auswahl: