Durch den Einsatz intelligenter Multimedia-Mustererkennungs-Algorithmen generiert die Kombination aus Live Automatic Speech Recognition (Live-ASR) und Audio Mining automatisch ein breites Spektrum an Metadaten für Mediendateien.

IAIS Audio Mining
Mit dem Audio Mining System des Fraunhofer IAIS lassen sich Ton- und Videospuren gezielt nach O-Tönen durchsuchen. Die Sprechererkennung erlaubt es, Personen zu finden und in der Datei gezielt anzusteuern.

© Foto Fraunhofer IAIS

Live Automatic Speech Recognition (ASR) – Spracherkennung in Echtzeit

Die ASR-Technologie von Fraunhofer IAIS ermöglicht die zuverlässige Umwandlung gesprochener Informationen in digitalen Text in Echtzeit, selbst unter schwierigen Bedingungen wie Hintergrundlärm oder regionalen Dialekten. Diese automatische Spracherkennung in Echtzeit fördert nicht nur die natürliche Kommunikation zwischen Menschen und Maschinen, sondern bietet auch eine wertvolle Unterstützung für Menschen mit Hörbehinderungen.

Bereits im Einsatz, sorgt die Software beispielsweise in Parlamenten für die automatische Live-Untertitelung (Transkription) von Reden. In industriellen Umgebungen ermöglicht sie die Kommunikation mit Maschinen durch Sprachbefehle. Die Technologie zeichnet sich durch ihre hohe Zuverlässigkeit in der Spracherkennung aus, bietet exzellente Leistung in Deutsch und Englisch, ist lärmresistent, anpassbar für spezifische Anwendungen und Vokabulare und liefert Wort- sowie Phonemausgaben für nachfolgende Systeme.

Kategorie:
Entwickelt von

Fraunhofer IAIS

Ihre Ansprechpartnerin

Gerne gebe ich Ihnen Auskunft zu unseren Softwareprodukten.

Ying Ge-Wolf
Ying Ge-WolfProduktvertrieb

Audio Mining – Automatische Aufbereitung von Audio-Medienbeständen

Mit der automatischen Sprach-Erkennung („speech-to-text“) können Audiodaten für die Suche aufbereitet und automatisch verschlagwortet werden. Dabei werden auch verschiedene Sprecher erkannt und Sprache von anderen Audion-Daten (Musik, Geräusche) unterschieden. Die Metadaten der Audio-Dateien können entsprechend angereichert werden, um vorhandene Suchfunktionen zu unterstützen.

Nutzen & Mehrwert

Ob Redaktion, Hosting oder Archivierung – nutzen Sie die Möglichkeiten der Künstlichen Intelligenz (KI) für Ihre Medienbibliothek. Mit Audio Mining können Sie audiovisuelle Medien in 99 verschiedenen Sprachen auf innovative Weise entdecken, speichern und wiederverwenden. Intelligente Multimedia-Mustererkennungs-Algorithmen generieren dabei automatisch eine Vielzahl von Metadaten für Ihre Mediendateien und wandeln gesprochenes Wort in durchsuchbaren Text um. So können Sie Medieninformationen wie Begriffe, Zitate, Sprecher*innen oder Schlagworte einfach und schnell abrufen, wodurch die Verwaltung Ihrer Medienbibliothek spürbar optimiert wird – und das ohne großen Aufwand.

Flexibilität und Usability

Durch die serviceorientierte Architektur und nachrichtenbasierte Kommunikation bietet das Audio Mining System ein hohes Maß an Flexibilität und die Möglichkeit, den Funktionsumfang auf Ihre individuellen Bedürfnisse zuzuschneiden. Dadurch kann das System in ein bereits vorhandenes Medienarchiv integriert und z. B. als Metadaten-Anreicherungsdienst verwendet werden oder aber auch als eigenständiges Medienarchiv fungieren.

Ganz nach Ihren Anforderungen

Für Ihre Version des Audio Mining Systems können wir sowohl auf bestehende Workflows z. B. zum Text-Mining oder zur Audio-Transkription zurückgreifen oder wir entwickeln neue individuelle Workflows für Sie. In enger Kooperation mit Ihrem Team können kundenspezifische KI-Modelle trainiert, neue Analyse-Services entwickelt oder zusätzlich bereits bestehende Services angebunden werden.

Branchen & Einsatzbereiche

  • Rundfunk- und Fernsehsender

  • Anbieter von Mediatheken

  • Unternehmen, die Metadaten aus großen Mengen von Text-, Audio- und/oder Videoinformationen erschließen möchten
  • Durchsuchbare Archivierung
  • Untertitelerstellung