Perspektiven der Informatik Ringvorlesung WS 20022003 Perspektiven in
- Slides: 65
Perspektiven der Informatik Ringvorlesung WS 2002/2003 Perspektiven in der Sprachtechnologie: Hörende, sprechende und verstehende Computer Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz Gmb. H Stuhlsatzenhausweg 3, Geb. 43. 1 66123 Saarbrücken Tel. : (0681) 302 -5252/4162 Fax: (0681) 302 -5341 E-mail: wahlster@dfki. de WWW: http: //www. dfki. de/~wahlster
Hauptziel: Wir wollen durch Künstliche Intelligenz die Technik menschenfreundlicher machen! Speziell: Der Mensch soll sich nicht dem Computer anpassen müssen, sondern umgekehrt soll sich der Computer dem Menschen anpassen! Bisher: Für den Mensch schwer zu erzeugen: Für den Computer leicht zu verstehe Künstliche Sprache, z. B. Java for ( int i = 2; i < final. Bit; i++ ) if ( sieve. get( i ) ) for ( int j = 2 * i; j < size; j += i ) sieve. clear( j ); Neu: Für den Mensch leicht zu erzeugen: Für den Computer schwer zu verstehe Natürliche Sprache, z. B. Deutsch Ist 677 eine Primzahl? © W. Wahlster, DFKI
Warum ist Sprachverstehen für den Computer so schwer? Wortgrenzen gehen im Sprachfluß unter: Beispiel: „amontag“ „am Montag“ Der Mensch spricht „ohne Punkt und Komma“ Beispiel: „So machen wir das vielleicht klappt es“ Bedeutung (1) So machen wir das. Vielleicht klappt es. oder (2) So machen wir das vielleicht. Klappt es? © W. Wahlster, DFKI
Warum ist Sprachverstehen für den Computer so schwer? Gleiche Schallwellen werden je nach Kontext zu verschiedenen Wörtern Beispiel: „Urlauber wollen wieder me: r ans me: r“ Urlauber wollen wieder mehr ans Meer. Viele Menschen sprechen Dialekt Beispiel: „Isch find das nätt“ Bedeutung (1) Ich finde das nett. oder (2) Ich finde das nicht. © W. Wahlster, DFKI
Warum ist das Sprachverstehen für den Computer so schwer? Bei spontaner Rede entstehen viele Versprecher Beispiel: „Wir treffen uns dann am Mon, äh, am Dienstag. “ Dialogpartner fallen dem Sprecher oft „ins Wort“ Beispiel: Sytem: „Können wir dann am Mittwoch zusammen zum Essen Sprecher: „Da kann ich nicht. “ © W. Wahlster, DFKI
Warum ist das Sprachverstehen für den Computer so schwer? Der Redefluß leitet häufig in die Irre Beispiel: „Die Staatssekretärin der Ministerpräsident. “ lobt. . . Subjekt: Staatssekretärin Prädikat: lobt Objekt: ? ? Subjekt: Ministerpräsident Prädikat: lobt Objekt: Staatssekret Viele Formulierungen sind mehrdeutig Beispiel: „Wir telefonierten mit Freunden in Japan. “ Bedeutung (1) Wir telefonierten (mit Freunden in Japan). oder (2) (Wir telefonierten mit Freunden) in Japan. © W. Wahlster, DFKI
Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen l. Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen l Durch die Unsicherheit bei der Spracherkennung entstehen Wörtergitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen Orthographisch übersetzen Phonetisch me: r Pragmatisch Es zieht. Morphologisch Staubecken Mehrdeutigkeiten Semantisch Ein - Alle Lexikalisch Maus Syntaktisch mit dem Teleskop © W. Wahlster, DFKI
Künstliche Intelligenz INFORMATIK Wie können die für das Sprachverstehen benötigten kognitiven Leistungen maschinell verfügbar gemacht werden? Psycholinguistik Wie wird Sprache von Menschen verstanden und generiert? KOGNITIONSWISSENSCHAFT Sprachverarbeitung Linguistik Wie können Sprachstrukturen mathematisch-logisch beschrieben werden? Sprachtechnologie Wie können effiziente, sprachverarbeitende und generierende Softwaresysteme erstellt werden? © W. Wahlster, DFKI
Code, Medium und Modalität CODE (Symbolsysteme) Sprache Graphik MEDIUM (Physikalischer Informationsträger) Eingabekanäle Ausgabekanäle Gestik Mimik MODALITÄT (Menschliche Sinne) Visuell System Benutzer Speicherung Festplatte CD-ROM Akustisch Taktil Haptisch © W. Wahlster, DFKI
Die Leitvorstellung multimodaler Interaktion Sprachlich. Dialogische Kommunikation Graphische Bedienoberflächen Taktil. Gestische Interaktionsform Multimodales Bedienparadigma © W. Wahlster, DFKI
Drei Stufen der Sprachverarbeitung Akustische Sprachanalyse Eingabe Spracherkennung Wortlisten Grammatik Wortbedeutungen Gesprächs. Kontext Wissen über das Gesprächsthema Sprachanalyse e Sprachverstehen Reduktion von Unsicherheit Gesprochene Was hat der Sprecher gesagt? 100 Alternativen Was hat der Sprecher gemeint? 10 Alternativen Was will der Sprecher? Eindeutiges Verstehen im Gesprächszusammenhang © W. Wahlster, DFKI
Ergebnis der Spracherkennung: Worthypothesengraph © W. Wahlster, DFKI
Verzögerte Disambiguierung Skopusmehrdeutigkeiten auf der Basis von Unterspezifikation (A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x) y (informatik-student (y) benutzt (y, x))) (2) y (informatik-student (y) x (computer (x) benutzt (y, x))) Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung) (3) { x: computer, y: informatik-student} (benutzt (y, x)) (B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren> (1) (C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute> (2) © W. Wahlster, DFKI
Mobile Dialogübersetzung für Spontansprache Verbmobil-Server für die Dialogübersetzung Lösung: Dreierkonferenz: Der Verbmobil-Server vermittelt zwischen zwei Mobilfunkteilnehmern © W. Wahlster, DFKI
Mobile Dialogübersetzung über Handy mit dem System VERBMOBIL Ergebnis von 8 Jahren Forschung mit einem Team von 100 Wissenschaftlern, 20 Produkte und 8 Spin-Off Firmen © W. Wahlster, DFKI
Von der Eingabeschallwelle zur Ausgabeschallwelle Schallwelle Mögliche Sätze Satzbedeutungen Wörter in Zielsprache Mögliche Phoneme Grammatische Struktur Diskursbedeutung in Quellsprache Satzgenerierung Mögliche Wörter Wortbedeutungen Diskursbedeutung in Zielsprache Satzmelodie Mögliche Sätze Satzbedeutungen Wortwahl in Zielsprache Sprachsynthese Sprachverstehen und Übersetzung Generierung und Synthese Spracherkennung Sprachanalyse © W. Wahlster, DFKI
Deutscher Zukunftspreis 2001 – Preis des Bundespräsidenten für Technik und Innovation für Sprachverstehende Computer © W. Wahlster, DFKI
Vom Sprachdialog zum Multimodalen Dialog Klassische Mobiltelephonie UMTS-Mobilgerät der dritten Generation Verbmobil Smart. Kom Reine Sprache, Graphik, Gestik © W. Wahlster, DFKI
Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Kooperation u. a. : EML - DFKI - ISL Mobile Dialogführung Lokationsadaptive Interpretation von Benutzeranfragen © W. Wahlster, DFKI
Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Sprachgesteuerte 3 D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik, Bilder) © W. Wahlster, DFKI
Symbolische und Subsymbolische Fusion von Eingabemodalitäten Mimikerkennung Gestikerkennung Spracherkennung Prosodieerkennung Lippenlesen Subsymbolische Fusion Symbolische Fusion - Neuronale Netze - Hidden Markov Modell - Unifikation über Hypothesengittern - Bayessche Netze Referenzauflösung und Disambiguierung Bedeutungsrepräsentation © W. Wahlster, DFKI
Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991) X B A 2 Y A C 1 Z A E 3 „Warum soll ich das ‚A‘ löschen? “ © W. Wahlster, DFKI
Die SDDP-Interaktionsmetapher für Smart. Kom SDDP = Situated Delegation-oriented Dialog Paradigm IT-Dienste Personalisierter Interaktionsagent Benutzer Dienst 1 spezifiziert Wunsch delegiert Aufgabe kooperieren bei Problemen Dienst 2 stellt Nachfragen präsentiert Resultate Dienst 3 © W. Wahlster, DFKI
Kombination von Sprache und Gestik in Smart. Kom Auf Karte sind Ich der zeige ihnen Hier sehen sie in dieeine Kinos markiert, Übersicht einedie Übersicht denen der Film „Eine über Filme, die über das Programm kleine Weihnachtsheute abend im der. Fernsehen Heidelberger Kinos. geschichte“laufen. läuft. Welche Spielfilme Da ist nichts Den würde ich laufen für michden dabei. gerne sehen. heute abend Dann möchte ich Wo kommt der? im Fernsehen? doch lieber ins Kino gehen. © W. Wahlster, DFKI
Multimodale Ein- und Ausgabe in Smart. Kom Auf der Übersicht Eine sehen sie die Anfangs. Reservierung Ich habe die Zeigen zeiten des sie Films ist in diesem gewünschte mirkleine wo Ist„Eine das richtig? Kinoso nicht Reservierung für Sie sie. Auf sitzen Weihnachtsgeschichte“ möglich. durchgeführt. wollen. im. Wiedersehen Kino „Schloß“. Ihre Reservierungsnummer ist 635. Sie können die Karten bis spätestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Dann einich Da würd‘ Gut. Ichwürd‘ hätte Da ich anderes Kino. gern Das war‘s. gern zwei Richtig. gern Das da reservieren. Dankeschön. Plätze hier. reservieren. vielleicht. Tschüss. © W. Wahlster, DFKI
Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, Smart. Kom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (Smart. Kom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung © W. Wahlster, DFKI
Disambiguierung durch Selektionsrestriktionen und Weltwissen Vater zu einem Service-Roboter im Cyber-Restaurant: (1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Tochter, Frau Mensch Getränk Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk) (B) trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle) © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI
Modalitätsspezifische Repräsentationssprachen als Zwischenstufe zur Medienfusion Bilder/ Graphiken Graphisches Bildverstehen Graphikgenerierung Bildbeschreibungssprache Sprachliche Äußerungen Parsing Generation Semantische Repräsentationssprache Wissensrepräsentationssprache Ontologien Inferenzkomponente Gestenanalyse Gestengenerierung Gestenbeschreibungssprache DBMS/ KBMS/ WWW © W. Wahlster, DFKI
Fusion von Sprach- und Mimikerkennung in Smart. Kom Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDFProgramm. (2) Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2’) Benutzer: Echt toll. (3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen? © W. Wahlster, DFKI
Videobasierte Mimikerkennung auf der Basis von Eigenfaces neutral ärgerlich © W. Wahlster, DFKI
Sprecherunabhängie Emotionserkennung neutral ärgerlich © W. Wahlster, DFKI
Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger Smart. Kom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien Benutzer: Ich möchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg. © W. Wahlster, DFKI
Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten. User: Ich möchte mehr Information über diese Kirche. Smartakus: Hier siehst die Webseite über die Peterskirche. User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert. © W. Wahlster, DFKI
Multomodale Kommunikation mit Unterhaltungselektronik Beispiel: Zugriff auf digitale Programmführer Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten. © W. Wahlster, DFKI
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” © W. Wahlster, DFKI
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” © W. Wahlster, DFKI
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” © W. Wahlster, DFKI
Sprachtechnologie im Alltag Einen Capuccino in 10 Minuten bitte! Sprachgesteuerte Kaffeemaschine Bitte in die Winterbergstraße in Saarbrücken! Sprachdialog mit Fahrzeugelektronik Ich würde gerne Mozarts Klavierkonzert Nummer 3 hören! Sprachbasierte Musikauswahl Sende folgende Email an Meyer: Sehr geehrter Herr Meyer. Bitte senden Sie dringend die Agenda für Montag. Diktat von Emails © W. Wahlster, DFKI
Klassische Sprachsteuerung im Auto: Kein spontansprachlicher Dialog - Sprachaktivierungstaste © W. Wahlster, DFKI
for UMTS-based Multimodal Speech Erstes UMTS-Anwendungstestund Evaluationszentrum Services in Germany Node B at DFKI Saarbrücken PSTN, Telephone System Internet Content Provide r E 1/ATM Gigastream UMTS Navigation Switch Mobile Network RNC Munich UMTS-Doit Server Kooperation und
Embassi: Sprachbasierte Musikwahl © W. Wahlster, DFKI
ORBA Auskunftsdienst: „Shop. Finder“ „Wo gibt es nächsten Geldautomaten ? “ m ORBA greift auf online Produktkataloge, Shop- und Branchenverzeichnisse zu und lokalisiert die im jeweiligen Erreichbarkeitsradius liegenden Shops, von denen bekannt ist, dass sie das gesuchte Produkt vorhalten. m Shop. Finder ist kombinierbar mit: - multimedialer Produktinformation - Routenplanung und Zielführung © W. Wahlster, DFKI
ORBA Erinnerungsdienst: „Active. List“ „Erinnere mich an die Batterie für die Uhr, wenn ich an einem entsprechenden Shop vorbeikomme !“ m ORBA erinnert an vorher notierte Kaufwünsche, sobald der Benutzer an dem explizit angegeben Shop vorbeikommt bzw. sich irgendeinem Shop nähert, von dem bekannt ist, dass er das gesuchte Produkt vorhält. m Active. List kombinierbar mit: - multimedialer Produktinformation; - „m. Coupon“ Aktionen; © W. Wahlster, DFKI
ORBA Ortungsdienst: „Partner. Radar“ „Wo (. . . ) stecken Lisa und Tom ? “ m ORBA hilft beim Aufspüren und der Zusammenführung von Familien- Gruppenmitgliedern, sofern diese ebenfalls mit einem Mobilgerät ausgestattet sind, und ihre Ortung gestatten. m Partner. Finder ist kombinierbar mit: - Routenplanung und Zielführung - Geschäftsempfehlungen, z. B. zentral gelegenes Restaurant als Treffpunkt. © W. Wahlster, DFKI
Sprachtechnologie im Alltag Zeige mir alle Beiträge der Tagesschau, in denen Regierungsmitglieder zur Green Card sprachen! Sprachgesteuerte Suche in digitalen Fernseharchiven Was hat der Ministerpräsident auf der COLING zur Sprachtechnologie gesagt? Inhaltliche Suche in privaten Audioarchiven Ich möchte gerne einen Termin mit Doktor Kuremastu nächste Woche in Kyoto ausmachen! Dialogübersetzung © W. Wahlster, DFKI
Sprachtechnologie für die Post-PC Ära Personalisierte Benutzeroberflächen l In der Hand tragbar Mobile Computing l Am Körper anziehbar Wearable Computing l Im Körper implantierbar Biohybrid Computing © W. Wahlster, DFKI
Offene Forschungsprobleme l Probleme der maschinellen Lernverfahren L Teuere Datensammlung L Kognitiv unrealistische Trainingsdaten L Datenknappheit l. Probleme mit manuell erstellten Wissensquellen L Mangelnde Robustheit L Domänenabhängigkeit L Geringe Skalierbarkeit © W. Wahlster, DFKI
Vielen Dank für Ihre Aufmerksamkeit © 2002 DFKI . by R. O ©Design W. Wahlster, DFKI
- 20022003 color
- Psykologiska perspektiv
- Perspektiven balanced scorecard
- Perspektiven finden
- Bernd schürmann berlin
- Geschichte vom frosch und skorpion
- Grundriss aufbau einer burg
- Gott der stadt gedicht
- Gegenstand der psychologie beispiel
- Der erste tag der woche
- Der seele heimat ist der sinn
- Der daumen pflückt die pflaumen
- At eternity's gate painting
- Der weg der atemluft
- Wer ist der gründer der modernen türkei
- Weltuntergangstheorie
- Königsberger brückenproblem informatik
- Transistorenrechner
- Scheduling strategien
- Rechenblätter erstellen
- Tu kl informatik studienplan
- Punim seminarik informatik
- Parameter (informatik)
- Informatik
- Pflichtenheft beispiel informatik
- Prüfungsamt eti
- Erweitertes klassendiagramm
- Projekt informatik
- Informatik innsbruck
- Codierung
- Punim seminarik informatik
- Gjenerata e 4 e kompjuterit
- 192-168-178-23
- Kompositum informatik
- Schaltwerk schaltnetz
- Turtle informatik
- Was ist datensicherheit
- Punim seminarik informatik
- Klassenkarte
- Entscheidungstabelle informatik
- Informatik
- Adt informatik
- Haw department informatik
- Trace tabelle informatik
- Objektdiagramm informatik
- Gjenerata e pare e kompjuterit
- Kleene bedeutung
- Tu freiberg informatik
- Cand scient techn
- Oth regensburg exchange
- Punim seminarik informatik
- Kompjuteri dhe pjeset e tij
- Technische informatik 2 tu bs
- Interrupt informatik
- Kompjuteri dhe pjeset e tij
- Kara programmieren lösungen
- Praktikumsbericht rwth
- Dea informatik
- Informatik klausuren uni augsburg
- Schaltwerk informatik
- Hazards informatik
- Fakulteti ekonomik menaxhment dhe informatik
- Informatik team
- Logische funktionen informatik
- Skytale verschlüsselung informatik
- Rechnerstrukturen tu dortmund