Zum Diktat

1. Februar 2022

 

foto Be­reits ver­schie­dent­lich und neu­lich wie­der so um ver­gang­e­nen Ok­to­ber he­rum war es, dass ich mich mit der Fra­ge be­schäf­tig­te, ob und wie ein Rech­ner ei­gent­lich da­zu zu be­we­gen ist, auf ge­sproch­e­ne Kom­man­dos zu re­a­gie­ren.

Na­tür­lich ken­ne ich die An­ge­bo­te nam­haf­ter Her­stel­ler à la Si­ri, A­le­xa, Cor­ta­na usw. Je­doch ging es mir ein­mal mehr um die Fra­ge, was ei­gent­lich hin­ter die­sen An­ge­bo­ten steckt und ob die­se Tech­no­logie auch ver­wend­bar ist, ohne auf Ap­ple, A­ma­zon, Google o­der Mi­cro­soft an­ge­wie­sen zu sein.

Was mir vor­schweb­te war ein im Brow­ser oh­ne wei­te­re Ab­häng­ig­kei­ten aus­führ­ba­rer Web­cli­ent, der in na­tür­li­cher Spra­che ge­spro­che­ne Kom­man­dos si­mul­tan ent­ge­gen­nimmt und 'ver­steht'. Letz­te­res wird in Neu­deutsch 'speech to text' ge­nannt. Zu­dem soll­te auch die Über­füh­rung zu­vor auf­ge­zeich­ne­ter Au­dio­da­tei­en in Text­da­tei­en mög­lich sein, al­so ei­ne ma­schi­nel­le Trans­skrip­tion.

In der Zwi­schen­zeit er­schie­ne­ne Mel­dung­en zei­gen un­ter­des­sen die Ak­tu­a­li­tät der An­for­de­rung­en. Im De­zem­ber wur­de ver­mel­det, dass die EU Mi­cro­softs Plä­ne bil­ligt, die Sprach­er­ken­nungs­fir­ma Nuance für 19,7 Mill­iar­den Dol­lar zu kau­fen. Zu­gleich wird Ora­cle für 28,3 Mill­iar­den Dol­lar den u.a. auch auf Sprach­er­ken­nung spe­zia­li­sier­ten Soft­ware­her­stel­ler Cer­ner er­wer­ben.

Recherchen brachten bald die Open Source Lösung Vosk zutage, die zu den genannten Anforderungen passt. Allerdings musste einiges erst ausprobiert werden, bis der Webclient für text to speech sowie die Transskription so gelangen wie gewünscht. Trotz einer Vielzahl von Anwendungsbeispielen für die unterschiedlichsten Szenarien und Programmiersprachen fand sich beispielsweise kein Webclient, der ganz ohne weitere Abhängigkeiten einfach im Browser ausführbar ist. So habe ich kurzerhand selbst einen gebaut

Um auch für mich selbst die Erkenntnisse der Recherche und der Tests festzuhalten habe ich die wesentlichen Punkte aufgeschrieben, die zur Lösung führten. Der Artikel Sesam öffne Dich: Spracherkennung in der Praxis beschreibt nun, wie sich Vosk für eigene Zwecke nutzen lässt und kann zugleich als Ausgangspunkt für eigene Verwendungen der Spracherkennung dienen.





 

Copyright © Ulrich Hilger, alle Rechte vorbehalten.