Spracherkennung

Die Spracherkennung oder auch automatische Spracherkennung ist ein Teilgebiet der angewandten Informatik. Sie beschäftigt sich mit der Untersuchung und Entwicklung von Verfahren, die es Automaten, insbesondere Computern erlauben, gesprochene Sprache zu erkennen (das heißt, in Zeichenfolgen umzuwandeln) und zu verarbeiten.

Geschichtliche Entwicklung

Die Forschung an Spracherkennungssystemen begann in den 1960er Jahren, verlief damals allerdings weitestgehend erfolglos: Die von privaten Firmen entwickelten Systeme ermöglichten maximal die Erkennung von einigen hundert Einzelworten. Dies lag einerseits an dem begrenzten Wissen in diesem neuen Forschungsgebiet, aber auch an den zur damaligen Zeit begrenzten technischen Möglichkeiten.

Erst Mitte der 1980er Jahre kam die Entwicklung weiter voran. In dieser Zeit entdeckte man, dass man durch Kontextprüfungen Homophone unterscheiden konnte. Indem man Statistiken über die Häufigkeit bestimmter Wortkombinationen erstellte und auswertete, konnte man bei ähnlich oder gleich klingenden Wörtern entscheiden, welches gemeint war. Diese so genannten Trigrammstatistiken wurden anschließend ein wichtiger Bestandteil aller Spracherkennungssysteme. 1984 stellte IBM ein erstes Spracherkennungssystem vor, das etwa 5.000 englische Einzelworte erkennen konnte. Das System brauchte für einen Erkennungsvorgang jedoch mehrere Minuten Rechenzeit auf einem Großrechner. Fortschrittlicher war dagegen ein von Dragon Systems entwickeltes System: Dieses ließ sich auf einem tragbaren PC verwenden.

1991 stellte IBM erstmals auf der CeBIT ein Spracherkennungssystem vor, das 20.000 bis 30.000 deutsche Wörter erkennen konnte. Die Präsentation des TANGORA 4 genannten Systems musste jedoch in einem speziell abgeschirmten Raum stattfinden, da der Lärm der Messe das System sonst gestört hätte.

Ende 1993 stellte IBM das erste für den Massenmarkt entwickelte Spracherkennungssystem vor: Das „IBM Personal Dictation System“ genannte System lief auf normalen PCs und kostete unter $ 1.000. Als es unter dem Namen „IBM VoiceType Diktiersystem“ auf der CeBIT 1994 präsentiert wurde, stieß es auf hohes Interesse seitens der Besucher und der Fachpresse.

2004 gab IBM Teile seiner Spracherkennungsanwendungen als Open Source frei und sorgte damit für Aufsehen. Branchenkenner vermuteten als Grund taktische Maßnahmen gegen die Firma Microsoft, die ebenfalls in diesem Bereich tätig ist und bereits ein kostenloses Entwicklungskit vorgestellt hat.

Aktueller Stand

Derzeit kann grob zwischen zwei Arten der Spracherkennung unterschieden werden:

Sprecherunabhängige Spracherkennung
Sprecherabhängige Spracherkennung

Charakteristisch für die sprecherunabhängige Spracherkennung ist die Eigenschaft, dass der Benutzer ohne eine vorhergehende Trainingsphase sofort mit der Spracherkennung beginnen kann. Der Wortschatz ist jedoch auf einige tausend Wörter begrenzt.

Sprecherabhängige Spracherkenner müssen vom Benutzer vor der Verwendung auf die eigenen Besonderheiten der Aussprache trainiert werden. Ein Einsatz in Anwendungen mit häufig wechselnden Benutzern ist damit nicht möglich. Der Wortschatz ist im Vergleich größer als der der sprecherunabhängigen Erkenner.

Mittlerweile wird Spracherkennung auch schon im technischen Einsatz verwendet, zum Beispiel in automatischen Dialogsystemen wie etwa einer Fahrplanauskunft. Überall dort, wo nur ein begrenzter Wortschatz verwendet wird, wird die automatische Spracherkennung mit Erfolg praktiziert. So erreichen Systeme zur Erkennung der gesprochenen Ziffern von 0 bis 9 eine nahezu 100% Erkennungsquote. Auch bei einem begrenzten Fachwortschatz werden hohe Erkennungsquoten erreicht. Wo aber kein begrenzter Wortschatz verwendet wird, wird keine volle Treffsicherheit mehr erreicht. Selbst eine Treffsicherheit von 95 Prozent ist zu gering, da zu viel nachgebessert werden müsste. Versuche im Stenografischen Dienst des Niedersächsischen Landtages zeigen das.

Neben der Größe des Wörterbuches spielt auch die Qualität der akustischen Aufnahme eine entscheidende Rolle. Bei Mikrofonen, die direkt vor dem Mund angebracht sind (z. B. bei Headsets oder Telefonen) wird eine signifikant höhere Erkennungsgenauigkeit erreicht als bei weiter entfernten Raummikrofonen.

Lippenlesen

Um die Erkennungsgenauigkeit noch weiter zu erhöhen, wird momentan versucht, mithilfe einer Videokamera das Gesicht des Sprechers zu filmen und daraus die Lippenbewegungen abzulesen. Indem man diese Ergebnisse mit den Ergebnissen der akustischen Erkennung kombiniert, kann man gerade bei verrauschten Aufnahmen eine signifikant höhere Erkennungsquote erreichen.

Dies entspricht Beobachtungen bei der menschlichen Spracherkennung: Harry McGurk hatte 1976 festgestellt, dass auch Menschen aus der Lippenbewegung auf die gesprochene Sprache schließen (McGurk-Effekt).

Sprachausgabe

Da es sich bei Kommunikation mit menschlicher Sprache meist um einen Dialog zwischen zwei Gesprächspartnern handelt, findet man die Spracherkennung häufig in Verbindung mit Sprachsynthese. Auf diesem Weg können dem Benutzer des Systems akustische Rückmeldungen über den Erfolg der Spracherkennung und Hinweise über eventuell ausgeführte Aktionen gegeben werden. Auf die gleiche Weise kann der Benutzer auch zu einer erneuten Spracheingabe aufgefordert werden.

Problemstellung

Um zu verstehen, wie ein Spracherkennungssystem arbeitet, muss man sich zuerst über die Herausforderungen klar werden, die zu bewältigen sind.

Diskrete und kontinuierliche Sprache

Bei einem Satz in der Alltagssprache werden die einzelnen Worte ohne wahrnehmbare Pause dazwischen ausgesprochen. Als Mensch kann man sich intuitiv an den Übergängen zwischen den Worten orientieren – frühere Spracherkennungssysteme waren dazu nicht in der Lage. Sie erforderten eine diskrete (unterbrochene) Sprache, bei der zwischen den Wörtern künstliche Pausen gemacht werden müssen.

Moderne Systeme sind jedoch auch fähig, kontinuierliche (fließende) Sprache zu verstehen.

Diskrete Sprache

Grafik des Satzes: „Die freie Enzyklopädie“, diskret ausgesprochen

Bei der diskreten Sprache erkennt man deutlich die Pausen zwischen den Wörtern, die länger und deutlicher ausfallen als die Übergänge zwischen den Silben innerhalb des Worts „Enzyklopädie“.

Kontinuierliche Sprache

Grafik des Satzes: „Die freie Enzyklopädie“, kontinuierlich ausgesprochen

Bei der kontinuierlichen Sprache gehen die einzelnen Wörter ineinander über, es sind keine Pausen erkennbar.

Größe des Wortschatzes

Durch die Flexion, also die Beugung eines Wortes je nach grammatikalischer Funktion, entstehen aus Wortstämmen (Lexemen) eine Vielzahl von Wortformen. Dies ist für die Größe des Wortschatzes von Bedeutung, da alle Wortformen bei der Spracherkennung als eigenständige Wörter betrachtet werden müssen.

Die Größe des Wörterbuchs hängt stark von der Sprache ab. Zum einen haben durchschnittliche deutschsprachige Sprecher mit ca. 4.000 Wörtern einen deutlich größeren Wortschatz als englischsprachige mit ca. 800 Wörtern. Außerdem ergeben sich durch die Flexion in der deutschen Sprache ca. 10-mal so viele Wortformen, während in der englischen Sprache nur ca. 4-mal so viele Wortformen entstehen.

Homophone

In vielen Sprachen gibt es Wörter oder Wortformen, die eine unterschiedliche Bedeutung haben, jedoch gleich ausgesprochen werden. So klingen die Wörter „Meer“ und „mehr“ zwar identisch, haben jedoch trotzdem nichts miteinander zu tun. Solche Wörter nennt man Homophone. Da ein Spracherkennungssystem im Gegensatz zum Menschen in der Regel kein Weltwissen hat, kann es die verschiedenen Möglichkeiten nicht anhand der Bedeutung unterscheiden.

Die Frage Groß- oder Kleinschreibung fällt auch in diesen Bereich.

Phoneme

Auf akustischer Ebene spielt insbesondere die Lage der Formanten eine Rolle: Die Frequenzanteile gesprochener Vokale konzentrieren sich typischerweise auf bestimmte unterschiedliche Frequenzen, die Formanten genannt werden. Für die Unterscheidung der Vokale sind insbesondere die zwei tiefsten Formanten von Bedeutung: Die tiefere Frequenz liegt im Bereich von 200 bis 800 Hertz, die höhere im Bereich von 800 bis 2400 Hertz. Über die Lage dieser Frequenzen lassen sich die einzelnen Vokale unterscheiden.

Konsonanten

Konsonanten sind vergleichsweise schwierig zu erkennen; einzelne Konsonanten (sogenannte Plosive) sind z. B. nur durch den Übergang den benachbarten Lauten feststellbar, wie folgendes Beispiel zeigt:

„sprechen“ gesprochen, Original

„p“ ausgeblendet

Man erkennt, dass innerhalb des Wortes „sprechen“ der Konsonant „p“ (genauer: die Verschlussphase des Phonems „p“) faktisch nur Stille ist und lediglich durch die Übergänge zu den anderen Vokalen erkannt wird – das Entfernen bewirkt also keinen hörbaren Unterschied.

Andere Konsonanten sind durchaus an charakteristischen spektralen Mustern erkennbar. So zeichnen sich etwa der Laut „s“ wie auch der Laut „f“ durch einen hohen Energieanteil in höheren Frequenzbändern aus. Bemerkenswert ist, dass die für die Entscheidung dieser beiden Laute relevanten Informationen größtenteils außerhalb des in Telefonnetzen übertragenen Spektralbereichs (bis ca. 3.4kHz) liegt. Dadurch ist es zu erklären, dass das Buchstabieren über Telefon ohne Verwendung eines speziellen Buchstabieralphabets (z. B. „Friedrich“, „Siegfried“) auch in der Kommunikation zwischen zwei Menschen ausgesprochen mühselig und fehleranfällig ist.

Realisierung

Aufbau eines Spracherkennungssystems nach Waibel

Ein Spracherkennungssystem besteht aus folgenden Bestandteilen: Einer Vorverarbeitung, die die analogen Sprachsignale in die einzelnen Frequenzen zerlegt. Anschließend findet die tatsächliche Erkennung mit Hilfe akustischer Modelle, Wörterbücher und Sprachmodellen statt.

Vorverarbeitung

Bei der Vorverarbeitung kommt es im Wesentlichen darauf an, die Menge der Eingangsdaten zu reduzieren und die relevanten Informationen herauszufiltern. Ausgangsbasis ist das analoge Signal eines Mikrofons. Dieses Signal wird anschließend beispielsweise mit einer Soundkarte digitalisiert. Alle 10 Millisekunden wird mit einer Fourier-Transformation ein Frequenzspektrum erzeugt – ähnlich wie es im menschlichen Ohr passiert. Dieses Spektrum wird anschließend mit einer Datenbank verglichen und das Symbol des akustisch ähnlichsten Referenzvektors an den Erkennungsprozess weitergegeben.

Erkennung

Modell des Erkennungsprozesses

Hidden-Markov-Modelle

Im weiteren Verlauf spielen Hidden-Markov-Modelle (HMM) eine wichtige Rolle. Diese ermöglichen es, die Phoneme zu finden, die am besten zu den Eingangssignalen passen. Dazu wird das akustische Modell eines Phonems in verschiedene Teile zerlegt: Den Anfang, je nach Länge unterschiedlich viele Mittelstücke und das Ende. Die Eingangssignale werden mit diesen gespeicherten Teilstücken verglichen und mit Hilfe des Viterbi-Algorithmus mögliche Kombinationen gesucht.

Für die Erkennung von unterbrochener (diskreter) Sprache (bei der nach jedem Wort eine Pause gemacht wird) reichte es aus, jeweils ein Wort zusammen mit einem Pausenmodell innerhalb des HMMs zu berechnen. Da die Rechenkapazität moderner PCs aber deutlich gestiegen ist, kann mittlerweile auch fließende (kontinuierliche) Sprache erkannt werden, indem größere Hidden Markov Modelle gebildet werden, die aus mehreren Wörtern und den Übergangen zwischen ihnen bestehen.

Neuronale Netze

Alternativ wurden auch schon Versuche unternommen, neuronale Netze für das akustische Modell zu verwenden. Mit Time Delay Neural Networks sollten dabei insbesondere die Veränderungen im Frequenzspektrum über den Zeitablauf hinweg zur Erkennung verwendet werden. Die Entwicklung hat durchaus positive Ergebnisse gebracht, wurde letztlich aber zugunsten der HMMs wieder aufgegeben.

Es gibt aber auch einen hybriden Ansatz, bei dem die aus der Vorverarbeitung gewonnenen Daten durch ein neuronales Netzwerk vor-klassifiziert werden, und die Ausgabe des Netzes als Parameter für die Hidden Markov Modelle genutzt werden. Dies hat den Vorteil, dass man ohne die Komplexität der HMMs zu erhöhen auch Daten von kurz vor und kurz nach dem gerade bearbeiteten Zeitraum nutzen kann. Außerdem kann man so die Klassifizierung der Daten und die kontextsensitive Zusammensetzung (Bildung von sinnvollen Wörtern/Sätzen) voneinander trennen.

Sprachmodell

Das Sprachmodell versucht anschließend, die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen und dadurch falsche oder unwahrscheinliche Hypothesen auszuschließen. Dazu kann entweder ein Grammatikmodell oder eine Trigrammstatistik verwendet werden.

Eine Bi- oder Trigrammstatistik speichert die Auftrittswahrscheinlichkeit von Wortkombinationen aus 2 oder 3 Wörtern. Diese Statistiken werden aus Beispieltexten gewonnen. Jede von der Spracherkennung ermittelte Hypothese wird anschließend geprüft und ggf. verworfen, falls ihre Wahrscheinlichkeit zu gering ist. Dadurch können auch Homophone, also unterschiedliche Wörter mit identischer Aussprache unterschieden werden. „Vielen Dank“ wäre also wahrscheinlicher als „Fielen Dank“, obwohl beides gleich ausgesprochen wird.

Mit Trigrammen sind im Vergleich zu Bigrammen theoretisch zutreffendere Schätzungen der Auftrittswahrscheinlichkeiten der Wortkombinationen möglich. Allerdings müssen die Beispieltext-Datenbanken, aus denen die Trigramme extrahiert werden, wesentlich größer sein, als für Bigramme, denn es müssen sämtliche zulässige Wortkombinationen aus drei Worten in statistisch signifikanter Anzahl darin vorkommen (d. h.: jede wesentlich mehr als einmal). Kombinationen von 4 oder mehr Wörtern werden normalerweise nicht mehr verwendet, weil sich im Allgemeinen keine Beispieltext-Datenbanken mehr finden lassen, die sämtliche Wortkombinationen in genügender Anzahl beinhalten.

Wenn Grammatiken verwendet werden, handelt es sich meist um kontextfreie Grammatiken. Dabei muss allerdings jedem Wort seine Funktion innerhalb der Grammatik zugewiesen werden. Deshalb werden solche Systeme meist nur für einen begrenzten Wortschatz und Spezialanwendungen verwendet.

Spracherkennungssysteme

Für das Betriebssystem Windows sind folgende Spracherkennungsprogramme verbreitet im Einsatz:

SpeechMagic (Hersteller: Philips)- nur für professionelle Anwender.
Dragon NaturallySpeaking (Hersteller: Nuance)
SpeaKING Dictat (Hersteller: MediaInterface)
lingSDK (Hersteller: LingCom)
Starrec (Windows und Linux; Hersteller: Temic)
Voice Pro (Hersteller: Linguatec)
ViaVoice (Hersteller: IBM)
Loquendo (kommerziell)
HTK (Hidden Markov Model Toolkit: Open Source, eigentlich für Linux, aber unter Windows kompilierbar)
CMU Sphinx
ESMERALDA (in Entwicklung an der Universität Bielefeld, eigentlich für Linux, aber unter Windows kompilierbar)
Sphinx

Windows Vista, welches Anfang 2007 erscheinen wird, liefert bereits eine Spracherkennungssoftware mit.

Für das Betriebssystem Mac OS X ist u. a. die Software iListen erhältlich.

Für das Betriebssystem Linux hat IBM ab 1999 begonnen, die Technologie von ViaVoice zu portieren.

Ein interessanter Aspekt: Bereits zum Jahresbeginn 2000 gelang Lernout & Hauspie die Demonstration der Spracherkennung auf einem Linux-PDA.

Der Markt für Spracherkennung am Telefon wird durch das US-amerikanische Unternehmen Nuance Communications dominiert (seit 16. September 2005 mit Scansoft fusioniert). Weitere Anbieter solcher Software sind die Firmen Telisma, Loquendo, IBM, Siemens, sowie die deutsche Firma Sympalog.

Medizinische Spracherkennung

Gerade in der Medizin werden zunehmend Spracherkennungssysteme bei der Erstellung von Befunden und Briefen eingesetzt. Ärzte müssen einen enormen Dokumentationsaufwand bewältigen, die erhöhte Berichtspflicht für Praxisärzte seit Einführung des EBM 2000plus hat den Aufwand noch verstärkt. In vielen Kliniken und Praxen Deutschlands ist Spracherkennung schon etabliert und nicht mehr wegzudenken. Marktführer bei medizinischen Spracherkennungssystemen ist laut der Unternehmensberatung Frost & Sullivan der Hersteller Philips mit dem System „SpeechMagic“, gefolgt von „Dragon Naturally Speaking“^[1]. SpeechMagic ist laut Philips in weltweit über 7000 Installationen im Einsatz und ermöglicht, wie auch Dragon Naturally Speaking 9, Spracherkennung unter Citrix. Mittlerweile gibt es neben Philipps und Nuance aber auch einige kleinere Unternehmen, die sich speziell auf den medizinischen Sektor konzentrieren und individuelle, auf den jeweiligen Benutzer zugeschnittene Vokabulare anbieten.

Vokabulare

Für die Integration von Spracherkennungssystemen gibt es bereits vordefinierte Vokabulare, die die Arbeit mit der Spracherkennung erheblich erleichtern. Diese Vokabulare werden als Produkt von Royal Philips „ConTexte“ genannt. Je besser der ConText, desto höher ist die Erkennungsgenauigkeit. Ein ConText beinhaltet neben dem sprecherunabhängigen Lexikon (Fach- und Grundwortschatz) auch ein individuelles Wortfolgemodell. Im ConText sind alle der Software bekannten Wörter in der Phonetik und Orthografie hinterlegt. Auf diese Weise wird ein gesprochenes Wort an seinem Klang durch das System erkannt. Wenn sich Wörter in Bedeutung und Schreibweise unterscheiden, aber gleich klingen, greift die Software auf das Wortfolgemodell zurück. In ihm ist die Wahrscheinlichkeit definiert, mit der bei einem bestimmten Benutzer ein Wort auf ein anderes folgt. SpeechMagic von Philips beispielsweise verfügt über 150 ConTexte für die Bereiche Medizin, Recht, Finanzen und Versicherungen^[2].

Siehe auch

Literatur

Lawrence R. Rabiner und Ronald W. Schafer: Digital Processing of Speech Signals, 1978, ISBN 0132136031
Alexander Waibel: Readings in Speech Recognition, 1990, ISBN 1558601244
Lawrence R. Rabiner und Biing-Hwang Juang Juang: Fundamentals of Speech Recognition, 1993, ISBN 0130151572
E.-G. Schukat-Talamazzini: Automatische Spracherkennung, 1995+2001, ISBN 3528154926

Weblinks

Quellen

↑ Philips SpeechMagic™ named European Technology Leader by Frost & Sullivan. Frost & Sullivan, 1. Dezember 2005, abgerufen am 29. Mai 2006.
↑ Phillips Speech Regognition Systems. Royal Phillips Electronics, abgerufen am 29. Mai 2006.

[1] Philips SpeechMagic™ named European Technology Leader by Frost & Sullivan. Frost & Sullivan, 1. Dezember 2005, abgerufen am 29. Mai 2006.

[2] Phillips Speech Regognition Systems. Royal Phillips Electronics, abgerufen am 29. Mai 2006.

[1]

[2]

Spracherkennung

Inhaltsverzeichnis

Geschichtliche Entwicklung