Spracherkennung – Text aus Videos und Audios extrahieren

Spracherkennung (Voice Recognition) ist ein Verfahren der Sprachanalyse aus dem Bereich der künstlichen Intelligenz (KI), mit der ein computerbasiertes System Sprachinformationen analysiert und in schriftlichen Text umwandelt. So kann gesprochene Sprache von einem Computer automatisch erkannt und in Textform gespeichert werden. Mit Hilfe von Voice Recognition in einem Digital Asset Management (DAM) ist es z.B. möglich, Sprache aus Videos und Audios zu extrahieren, zu durchsuchen und für die Weiterverarbeitung zu nutzen.

Mockup Digital Asset Management AdmiralCloud

AdmiralCloud – mit Speech-to-Text Videos und Audios analysieren

Mit dem DAM von AdmiralCloud können gesprochene Inhalte in Videos und Audios über die Speech-to-Text Funktion automatisch und ohne Zeitverzögerung in Text umgewandelt werden. Der erkannte Text wird dann dem jeweiligen Medium in einem Textfeld angefügt und kann zur weiteren Verarbeitung, z.B. zur Erstellung von Untertiteln, verwendet werden. Spracherkennung erspart die zeitintensive manuelle Erfassung des gesprochenen Inhaltes.

Zusätzlich wird der extrahierte Text für die Suche in der Mediathek indiziert. Somit ist die Suche nicht nur über den Titel und die hinterlegten Metadaten, sondern auch über alle gesprochenen Inhalte des Videos möglich.

Zu den Features