Matthias Schüssler vergleicht die vier Texterkennungs-Tools Trint, Descript, Töggl und Whisper (via blog.clickomania.ch)
“Es gibt mehrere Erkenntnisse:
Je weiter verbreitet die Sprache und je besser die Aufnahmequalität, desto brauchbarer das Resultat.
Töggl, der auf Schweizer Dialekte spezialisierte Dienst, ist der Aussenseiter. Er schlägt sich bei Dialekt-Aufnahmen recht gut, wenn die Qualität stimmt und das Vokabular nicht allzu exotisch ist.
Trint ist im Schnitt besser als Descript, doch der ehemalige Favorit wurde entthront.
Denn durchs Band weg am besten schneidet ein Newcomer ab: Whisper von OpenAI. Diese Spracherkennung habe ich erst vor Kurzem vorgestellt.
Als Bonus nebst der tollen Transkription hat Whisper das englische Interview sogar auf Deutsch übersetzt – und zwar ordentlich!
Die einzige Situation, in der Whisper echte Konkurrenz bekommt, ist beim Schweizerdeutsch: Wenn wir die Dialektpassagen (z.B. zu Babette von Interlaken vergleichen), dann ist Töggl an mehreren Stellen besser als die Software von Open AI.”