Spracherkennung unter schwierigen Bedingungen Natrlichsprachliche Interfaces Ideale Bedingungen
Spracherkennung unter schwierigen Bedingungen Natürlichsprachliche Interfaces
Ideale Bedingungen • • Deutlich und mit normaler, natürlicher Stimme sprechen Möglichst Dialektfrei, keine Umgangssprache Beigelegtes Headset verwenden Immer das Mikrofon verwenden, welches beim Training verwendet wurde Sprechgarnitur immer auf die selbe Weise tragen, 2 cm seitlich vom Mund, keine Berührungen mit Haut oder Haaren Akustisches Umfeld muss gleich sein, wie bei der Aufnahme (Halligkeit und Nebengeräusche) Essen, trinken und rauchen sie nicht beim Diktieren Bei Erkältung warten, bis diese abgeklungen ist
Übersicht • Mikrofone • Erschwerende Bedingungen • Lösungsmöglicheiten für eine robuste Spracherkennung • Aussprachestörungen
Mikrofoncharakteristiken Kugelcharakteristik Mikrofon ohne spezifische Richtcharakteristik. Es ist für Schallwellen aus allen Richtungen gleich empfindlich. Niere (Kardioid, Superkardioid, Hyperkardioid) Mikrofon mit Richtcharakteristik, bei der Schall vorzugsweise von vorne aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird ausgeblendet. Acht-Charakteristik Richtcharakteristik eines Mikrofons in Form einer liegenden Acht, bei der Schall vorzugsweise aus zwei gegenüberliegenden Richtungen aufgenommen wird. Schall aus den anderen beiden Richtungen, oder Schall, der von unten oder oben auf das Mikrofon auftrifft, wird ausgeblendet. Keule Mikrofon mit starker Richtcharakteristik, bei dem der Schall vorzugsweise von vorne und kaum von der Seite aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird nur wenig ausgeblendet.
Abstrahlwinkel der Stimme • Schallabstrahlung der Stimme ist gerichtet • Pegel ist rund 5 d. B niedriger in seitlicher Richtung • Pegel ist rund 10 d. B niedriger in rückwärtiger Richtung • Dabei wird der Klangcharakter erheblich geändert: • Frequenzen über 1000 Hz werden zur Seite und nach hinten mit geringerem Pegel abgestrahlt
Aufstellungsmöglichkeiten Headset • Ein Nahbesprechungs-Mikrofon wird dicht etwas seitlich vom Mund platziert getragen • Wird meist kombiniert mit einer aktiven Rauschunterdrückung • Kabel kann Stören und die Nähe zum Mund kann Störgeräusche verursachen Einbaumikrofone z. B. im Monitor oder in der Tastatur • Empfindlich für Störgeräusche • Sind weit entfernt vom Sprecher (Richtcharakteristik) • Störgeräusche auch von der direkten Umgebung (z. B. Tastatur) • Kabel kann Stören Einbau-Mikrofone im Computer • Eignen sich nicht sehr gut, da sie weit entfernt aufgestellt werden • Sind von vielen Störgeräuschen umgeben
Lavalier-Mikrofone (Mikrofonklips) • Nahbesprechungs-Mikrofon, wird direkt am Pullover getragen • Haben ungefähr die selben Eigenschaften wie Headsets Desktop • Desktop-Mikrofone werden ca. 15 cm entfernt mit Richtung zum Sprecher neben dem Monitor platziert aufgestellt • Funktionieren gut, aber nur in ruhigen Räumen Ohr-Mikrofone • Werden in das Ohr gesteckt mit Richtung zum Mund • Funktionieren ganz gut, aber nicht so gut wie Nahbesprechungs-Mikrofone • Kabel kann Stören Hand-held • Hand-Held Mikrofone nehmen wenig Störgeräusche auf • Müssen ca. 10 cm vom Mund platziert werden, eignet sich für einige Anwendungen nicht so gut Handset • Sehen aus wie Telefone und sind ganz gut geeignet
Bauarten von Mikrofonen
Erschwerende Bedingungen
Eingangspegel der Stimme – Variiert von Aussage zu Aussage und auch innerhalb einer Aussage – Abhängig von der Sprech-Variation (normal, geflüstert, geschrieen) – Abhängig von der Entfernung zum Mikrofon – Abhängig von der Ausrichtung des Mikrofons – Normalisierung des Sprachsignals funktioniert nicht, da der Eingangspegel ein Langzeitmerkmal des Sprachsignals ist Heute ist schönes Frühlingswetter
Störgeräusche • • • Regelmäßige Hintergrundgeräusche – können beim Training mit in das HMM aufgenommen werden (Computerlüfter, Straßenlärm) – dürfen sich beim Training nicht von den Störgeräuschen bei der Anwendung unterscheiden Unregelmäßige Hintergrundgeräusche wie Türen-Knallen oder Tastaturgeräusche verursachen Probleme Störungen durch andere Sprecher – Menschen können einzelne Stimmen aus einer Menschenmenge heraushören (Cocktailpartyeffekt) – Spracherkennungsmodell in der Regel nur für eine einzelne Stimme ausgelegt Raumakustik und Reflexionen – Reflexionen können als linearer Filter modelliert werden, in dem die Geometrie des Raumes, das Material und die Position des Sprechers dargestellt werden Aufnahmevorrichtung – Bei der Verwendung verschiedener Mikrofone ändert sich sie allgemeine Transferfunktion Feedback der synthetischen Sprachausgabe
Sprecher spezifische Probleme • Unterschiede in der Physiologie des Vokaltraktes • Unterschiede in der Länge und der Form des Vokaltraktes • Formanten der männlichen Stimme tiefer als die von Frauen und Kindern • Verschiedene Sprechstile • normal, langsam, schnell, geschrien
Verständlichkeit Gemessen wird die Anzahl der Richtig verstandenen Worte Wenn der Geräuschspannungsabstand (SNR signal-to-noise ratio) geringer als +10 d. B ist, wird das Sprachsignal unverständlich Ab +30 d. B ist die Verständlichkeit 100% Zu unverfälschten Übertragung von Sprache ist ein Frequenzband von 3600 Hz erforderlich.
Hörfläche des Menschen
Frequenzbereiche der Phoneme
Lösungs-Möglichkeiten für eine robuste Spracherkennung
Modelle für die Abdeckung von Nicht-Sprachlaute (garbage models) im Erkennungssystem Du. Deutsch
Active Noise Cancellation (ANC) • • • Zwei Mikrofone im Headset kommen zum Einsatz, eines Nimmt die Sprache mit dem Hintergrundgeräusch auf und eines nimmt nur das Hintergrundgeräusch auf. Eines der beiden Signale wird in der Phase gedreht. Beide Signale werden wieder gemischt, woraufhin sich die beiden Gegenphasigen Signale auslöschen. Übrig bleibt nur das Sprachsignal
Mikrofonarray • Mehrere Mikrophone werden nebeneinander aufgestellt • Durch Laufzeitunterschiede erkennt das System ob von Vorne gesprochen worden ist • Signale, welche seitlich eingestrahlt werden, werden nicht mit verarbeitet
Weitere • Das Störgeräusch wird einmalig isoliert aufgezeichnet und später vom Signal wieder abgezogen (Noiseprint) • Die Normalisierung des Verhältnisses von Signal- zu Rauschleistung in den einzelnen Frequenzbändern. • Normalisierung des Hintergrundpegels. Geräuschpegel wird in Sprechpausen automatisch abgesenkt • Modellierung der auditiven Schallverarbeitung mit Filtern und Merkmalsvektoren • Videoinformation wird mit dem Sprachsignal synchronisiert und die artikulatorischen Bewegungen mit dem Sprachsignal abgeglichen • Viele weitere Lösungsansätze
Aussprachestörungen • Alkoholeinfluss, Hektik, Stress, Ungeduld • Kindersprache (Dislalie) Störung der Artikulation, bei der einzelne Laute oder Lautverbindungen fehlen, falsch gebildet oder durch andere ersetzt werden. • Stottern der Redefluß ist durch Störungen in der Muskulatur der Artikulations- und Phonationsorgane beeinträchtigt. Es treten Laut- , Silben-, und Wortwiederholungen , Dehnungen und/oder Blockierungen auf. • Poltern Sprache und Sprechablauf sind beschleunigt, überhastet, die Artikulation ist undeutlich und verwaschen, Silben und einzelne Wörter werden wiederholt oder auch ausgelassen. • Disphonien Heiserkeiteinen, kratziger Hals, Rauhe oder dünne Stimme
• Aphasien, Sprachstörungen linguistisch als Beeinträchtigung in den verschiedenen Komponenten des Sprachsystems (Phonologie, Lexikon, Syntax und Semantik) zu verstehen. • Dysarthrien, Sprechstörungen Artikulation verlangsamt oder beschleunigt verwaschen undeutlich explosiv und gepresst sein verzögerter Sprechbeginn unregelmäßige Abbrüche Nasalität durch geschädigte Velum- und Pharynxmuskulatur auftreten. Die oralen Laute verlieren erheblich an Deutlichkeit. Störungen des Phonationsablaufes Stimmklang ist rauh, belegt, gepresst, monoton, müde, kraftlos, zittrig, überhaucht, zu tief oder zu hoch, zu laut oder zu leise, resonanzarm; der Stimmeinsatz kann verzögert sein; es kann zu Stimmabbrüchen kommen. Atmung verkürzte Sprechatemphasen, inspiratorisches Sprechen, hörbare Inspiration, unkoordinierte Sprechatmung, zu hohe Atemfrequenz, Hochatmung und Schnappatmung auf.
Literatur Dickreiter, Michael, „Handbuch der Tonstudiotechnik“ K. G. Saur, München, 6. Auflage 1997 Vieregge, Wilhelm H. , „Patho-Symbolphonetik“ Franz Steiner Verlag, Stuttgart, 1996 Bußmann, Hadumod, „Lexikon der Sprachwissenschaft“ Alfed Kröner Verlag, Stuttgart, 3. Auflage 2002
- Slides: 29