Zum Diktat

1. Februar 2022

Bereits verschiedentlich und neulich wieder so um vergangenen Oktober herum war es, dass ich mich mit der Frage beschäftigte, ob und wie ein Rechner eigentlich dazu zu bewegen ist, auf gesprochene Kommandos zu reagieren.

Natürlich kenne ich die Angebote namhafter Hersteller à la Siri, Alexa, Cortana usw. Jedoch ging es mir einmal mehr um die Frage, was eigentlich hinter diesen Angeboten steckt und ob diese Technologie auch verwendbar ist, ohne auf Apple, Amazon, Google oder Microsoft angewiesen zu sein.

Was mir vorschwebte war ein im Browser ohne weitere Abhängigkeiten ausführbarer Webclient, der in natürlicher Sprache gesprochene Kommandos simultan entgegennimmt und 'versteht'. Letzteres wird in Neudeutsch 'speech to text' genannt. Zudem sollte auch die Überführung zuvor aufgezeichneter Audiodateien in Textdateien möglich sein, also eine maschinelle Transskription.

In der Zwischenzeit erschienene Meldungen zeigen unterdessen die Aktualität der Anforderungen. Im Dezember wurde vermeldet, dass die EU Microsofts Pläne billigt, die Spracherkennungsfirma Nuance für 19,7 Milliarden Dollar zu kaufen. Zugleich wird Oracle für 28,3 Milliarden Dollar den u.a. auch auf Spracherkennung spezialisierten Softwarehersteller Cerner erwerben.

Recherchen brachten bald die Open Source Lösung Vosk zutage, die zu den genannten Anforderungen passt. Allerdings musste einiges erst ausprobiert werden, bis der Webclient für text to speech sowie die Transskription so gelangen wie gewünscht. Trotz einer Vielzahl von Anwendungsbeispielen für die unterschiedlichsten Szenarien und Programmiersprachen fand sich beispielsweise kein Webclient, der ganz ohne weitere Abhängigkeiten einfach im Browser ausführbar ist. So habe ich kurzerhand selbst einen gebaut.

Um auch für mich selbst die Erkenntnisse der Recherche und der Tests festzuhalten habe ich die wesentlichen Punkte aufgeschrieben, die zur Lösung führten. Der Artikel Sesam öffne Dich: Spracherkennung in der Praxis beschreibt nun, wie sich Vosk für eigene Zwecke nutzen lässt und kann zugleich als Ausgangspunkt für eigene Verwendungen der Spracherkennung dienen.

‹ geschriebene worte