Durch den Einsatz intelligenter Multimedia-Mustererkennungs-Algorithmen generiert die Kombination aus Live Automatic Speech Recognition (Live-ASR) und Audio Mining automatisch ein breites Spektrum an Metadaten für Mediendateien.
Live Automatic Speech Recognition (ASR) – Spracherkennung in Echtzeit
Die ASR-Technologie von Fraunhofer IAIS ermöglicht die zuverlässige Umwandlung gesprochener Informationen in digitalen Text in Echtzeit, selbst unter schwierigen Bedingungen wie Hintergrundlärm oder regionalen Dialekten. Diese automatische Spracherkennung in Echtzeit fördert nicht nur die natürliche Kommunikation zwischen Menschen und Maschinen, sondern bietet auch eine wertvolle Unterstützung für Menschen mit Hörbehinderungen.
Bereits im Einsatz, sorgt die Software beispielsweise in Parlamenten für die automatische Live-Untertitelung (Transkription) von Reden. In industriellen Umgebungen ermöglicht sie die Kommunikation mit Maschinen durch Sprachbefehle. Die Technologie zeichnet sich durch ihre hohe Zuverlässigkeit in der Spracherkennung aus, bietet exzellente Leistung in Deutsch und Englisch, ist lärmresistent, anpassbar für spezifische Anwendungen und Vokabulare und liefert Wort- sowie Phonemausgaben für nachfolgende Systeme.
Audio Mining – Automatische Aufbereitung von Audio-Medienbeständen
Mit der automatischen Sprach-Erkennung („speech-to-text“) können Audiodaten für die Suche aufbereitet und automatisch verschlagwortet werden. Dabei werden auch verschiedene Sprecher erkannt und Sprache von anderen Audion-Daten (Musik, Geräusche) unterschieden. Die Metadaten der Audio-Dateien können entsprechend angereichert werden, um vorhandene Suchfunktionen zu unterstützen.
Nutzen & Mehrwert
Ob Redaktion, Hosting oder Archivierung – nutzen Sie die Möglichkeiten der Künstlichen Intelligenz (KI) für Ihre Medienbibliothek. Mit Audio Mining können Sie audiovisuelle Medien in 99 verschiedenen Sprachen auf innovative Weise entdecken, speichern und wiederverwenden. Intelligente Multimedia-Mustererkennungs-Algorithmen generieren dabei automatisch eine Vielzahl von Metadaten für Ihre Mediendateien und wandeln gesprochenes Wort in durchsuchbaren Text um. So können Sie Medieninformationen wie Begriffe, Zitate, Sprecher*innen oder Schlagworte einfach und schnell abrufen, wodurch die Verwaltung Ihrer Medienbibliothek spürbar optimiert wird – und das ohne großen Aufwand.
Flexibilität und Usability
Durch die serviceorientierte Architektur und nachrichtenbasierte Kommunikation bietet das Audio Mining System ein hohes Maß an Flexibilität und die Möglichkeit, den Funktionsumfang auf Ihre individuellen Bedürfnisse zuzuschneiden. Dadurch kann das System in ein bereits vorhandenes Medienarchiv integriert und z. B. als Metadaten-Anreicherungsdienst verwendet werden oder aber auch als eigenständiges Medienarchiv fungieren.
Ganz nach Ihren Anforderungen
Für Ihre Version des Audio Mining Systems können wir sowohl auf bestehende Workflows z. B. zum Text-Mining oder zur Audio-Transkription zurückgreifen oder wir entwickeln neue individuelle Workflows für Sie. In enger Kooperation mit Ihrem Team können kundenspezifische KI-Modelle trainiert, neue Analyse-Services entwickelt oder zusätzlich bereits bestehende Services angebunden werden.