Spracherkennung in Echtzeit (Live-ASR) + Audio Mining

Durch den Einsatz intelligenter Multimedia-Mustererkennungs-Algorithmen generiert die Kombination aus Live Automatic Speech Recognition (Live-ASR) und Audio Mining automatisch ein breites Spektrum an Metadaten für Mediendateien.

Mit dem Audio Mining System des Fraunhofer IAIS lassen sich Ton- und Videospuren gezielt nach O-Tönen durchsuchen. Die Sprechererkennung erlaubt es, Personen zu finden und in der Datei gezielt anzusteuern.

Live Automatic Speech Recognition (ASR) – Spracherkennung in Echtzeit

Die ASR-Technologie von Fraunhofer IAIS ermöglicht die zuverlässige Umwandlung gesprochener Informationen in digitalen Text in Echtzeit, selbst unter schwierigen Bedingungen wie Hintergrundlärm oder regionalen Dialekten. Diese automatische Spracherkennung in Echtzeit fördert nicht nur die natürliche Kommunikation zwischen Menschen und Maschinen, sondern bietet auch eine wertvolle Unterstützung für Menschen mit Hörbehinderungen.

Bereits im Einsatz, sorgt die Software beispielsweise in Parlamenten für die automatische Live-Untertitelung (Transkription) von Reden. In industriellen Umgebungen ermöglicht sie die Kommunikation mit Maschinen durch Sprachbefehle. Die Technologie zeichnet sich durch ihre hohe Zuverlässigkeit in der Spracherkennung aus, bietet exzellente Leistung in Deutsch und Englisch, ist lärmresistent, anpassbar für spezifische Anwendungen und Vokabulare und liefert Wort- sowie Phonemausgaben für nachfolgende Systeme.

Kategorie:

KI-Technologien

Entwickelt von

Fraunhofer IAIS

Ihre Ansprechpartnerin

Gerne gebe ich Ihnen Auskunft zu unseren Softwareprodukten.

Ying Ge-WolfProduktvertrieb

+49-2241-14-4408
Kontakt

Info anfragen

Audio Mining – Automatische Aufbereitung von Audio-Medienbeständen

Mit der automatischen Sprach-Erkennung („speech-to-text“) können Audiodaten für die Suche aufbereitet und automatisch verschlagwortet werden. Dabei werden auch verschiedene Sprecher erkannt und Sprache von anderen Audion-Daten (Musik, Geräusche) unterschieden. Die Metadaten der Audio-Dateien können entsprechend angereichert werden, um vorhandene Suchfunktionen zu unterstützen.

Nutzen & Mehrwert

Ob Redaktion, Hosting oder Archivierung – nutzen Sie die Möglichkeiten der Künstlichen Intelligenz (KI) für Ihre Medienbibliothek. Mit Audio Mining können Sie audiovisuelle Medien in 99 verschiedenen Sprachen auf innovative Weise entdecken, speichern und wiederverwenden. Intelligente Multimedia-Mustererkennungs-Algorithmen generieren dabei automatisch eine Vielzahl von Metadaten für Ihre Mediendateien und wandeln gesprochenes Wort in durchsuchbaren Text um. So können Sie Medieninformationen wie Begriffe, Zitate, Sprecher*innen oder Schlagworte einfach und schnell abrufen, wodurch die Verwaltung Ihrer Medienbibliothek spürbar optimiert wird – und das ohne großen Aufwand.

Flexibilität und Usability

Durch die serviceorientierte Architektur und nachrichtenbasierte Kommunikation bietet das Audio Mining System ein hohes Maß an Flexibilität und die Möglichkeit, den Funktionsumfang auf Ihre individuellen Bedürfnisse zuzuschneiden. Dadurch kann das System in ein bereits vorhandenes Medienarchiv integriert und z. B. als Metadaten-Anreicherungsdienst verwendet werden oder aber auch als eigenständiges Medienarchiv fungieren.

Ganz nach Ihren Anforderungen

Für Ihre Version des Audio Mining Systems können wir sowohl auf bestehende Workflows z. B. zum Text-Mining oder zur Audio-Transkription zurückgreifen oder wir entwickeln neue individuelle Workflows für Sie. In enger Kooperation mit Ihrem Team können kundenspezifische KI-Modelle trainiert, neue Analyse-Services entwickelt oder zusätzlich bereits bestehende Services angebunden werden.

Branchen & Einsatzbereiche

Rundfunk- und Fernsehsender
Anbieter von Mediatheken
Unternehmen, die Metadaten aus großen Mengen von Text-, Audio- und/oder Videoinformationen erschließen möchten
Durchsuchbare Archivierung
Untertitelerstellung

Durch den Einsatz intelligenter Multimedia-Mustererkennungs-Algorithmen generiert die Kombination aus Live Automatic Speech Recognition (Live-ASR) und Audio Mining automatisch ein breites Spektrum an Metadaten für Mediendateien.

Mit dem Audio Mining System des Fraunhofer IAIS lassen sich Ton- und Videospuren gezielt nach O-Tönen durchsuchen. Die Sprechererkennung erlaubt es, Personen zu finden und in der Datei gezielt anzusteuern.

Live Automatic Speech Recognition (ASR) – Spracherkennung in Echtzeit

Kategorie:

Entwickelt von

Ihre Ansprechpartnerin

Audio Mining – Automatische Aufbereitung von Audio-Medienbeständen

Nutzen & Mehrwert

Flexibilität und Usability

Ganz nach Ihren Anforderungen

Branchen & Einsatzbereiche

Weitere Softwareprodukte

scapos AG

scapos Software-Portfolio Übersicht

AutoNester-T – Automatische Schnittbildgenerierung

AutoNester-L – Schnittoptimierung für Leder

PackAssistant – Behälterplanung mit baugleichen, komplexen Teilen

PUZZLE – Optimierung von Kartonagen und Palettenladungen

AutoBarSizer – Zuschnittoptimierung für Stahlprofile und andere Stangen

AutoPanelSizer – Optimierte Schnittpläne für Plattenaufteilsägen

CutPlanner – Automatische Produktionsplanung in der Textilindustrie

Luminous Algorithms – Automatisierte Optikentwicklung neu definiert

CuboNester-P – dynamisch optimierte Packungsanordnungen

CuboNester-C – dynamisch optimierte Schnittpläne

MpCCI – Lösung multidisziplinärer Probleme durch Kopplung von Simulationen

SAMG – große lineare Gleichungssysteme effizient lösen

ModelCompare – FEM-Modelle schnell und einfach vergleichen

SimCompare – automatische Ereigniserkennung für Crash-Simulationen

SimExplore – Vergleich und Analyse von CAE-Simulationen

MESHFREE – Beschleunigung komplexer strömungsmechanischer Simulationen

MYNTS – Simulation, Analyse und Optimierung von Energienetzen

FemZip – Komprimierung für Simulationsergebnisse

DIFF-CRASH – Stabilitätsanalyse für Simulationsergebnisse

OptoInspect3D Inline – schnelle Inline-Auswertung von Punktwolken

Spracherkennung in Echtzeit (Live-ASR) + Audio Mining

FoundationEHR | KI-Modell für strukturierte elektronische Patientenakten

MultiGML | maschinelles Lernen für die Priorisierung von Arzneimittelzielen