Spracherkennung mit Whisper

Das TIB AV-Portal ist eine offene und freie Plattform, die speziell für wissenschaftliche Videos konzipiert wurde. Neu ist das KI-Modell Whisper in der Suche integriert (via blogs.tib.eu):

«Whisper ist ein KI-Modell, das von OpenAI entwickelt wurde und gesprochene Sprache in durchsuchbaren Text umwandelt. Es kann 97 Sprachen transkribieren, zahlreiche Sprachen ins Englische übersetzen sowie Akzente und Dialekte gut verarbeiten. Es zeichnet sich besonders durch seine hohe Genauigkeit und Effizienz bei der Sprachverarbeitung aus. Seit Juli 2023 werden alle neu hinzugefügten Videos mit Hilfe von Whisper transkribiert. Die Transkripte werden im AV-Portal zum einen als Untertitel genutzt und zum anderen als Notationen der gesprochenen Sprache, die durchsucht werden können. Nutzer haben die Möglichkeit, die Transkripte nach bestimmten Suchbegriffen zu filtern und direkt zu den entsprechenden Videoabschnitten zu navigieren. Darüber hinaus können die Transkripte heruntergeladen und für andere Anwendungsfälle genutzt werden.

Zukünftig werden wir auch die Übersetzungsfunktion von Whisper integrieren, um das mehrsprachige Suchen und Verstehen zu verbessern. So wird es möglich sein, in spanischsprachigen Videos mit englischen Begriffen zu suchen und sich passende englische Untertitel anzeigen zu lassen. Geplant ist auch, den alten Bestand des AV-Portals mit Whisper neu zu transkribieren, um die Vorteile der höheren Erkennungsgenauigkeit im Vergleich zu den alten Sprachmodellen zu nutzen.»

Dieser Beitrag wurde unter Filmmaterial, Künstliche Intelligenz, Suchmaschinen abgelegt und mit verschlagwortet. Setzen Sie ein Lesezeichen auf den Permalink.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert