Perspektiven der Informatik Ringvorlesung WS 20022003 Perspektiven in

  • Slides: 65
Download presentation
Perspektiven der Informatik Ringvorlesung WS 2002/2003 Perspektiven in der Sprachtechnologie: Hörende, sprechende und verstehende

Perspektiven der Informatik Ringvorlesung WS 2002/2003 Perspektiven in der Sprachtechnologie: Hörende, sprechende und verstehende Computer Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz Gmb. H Stuhlsatzenhausweg 3, Geb. 43. 1 66123 Saarbrücken Tel. : (0681) 302 -5252/4162 Fax: (0681) 302 -5341 E-mail: wahlster@dfki. de WWW: http: //www. dfki. de/~wahlster

Hauptziel: Wir wollen durch Künstliche Intelligenz die Technik menschenfreundlicher machen! Speziell: Der Mensch soll

Hauptziel: Wir wollen durch Künstliche Intelligenz die Technik menschenfreundlicher machen! Speziell: Der Mensch soll sich nicht dem Computer anpassen müssen, sondern umgekehrt soll sich der Computer dem Menschen anpassen! Bisher: Für den Mensch schwer zu erzeugen: Für den Computer leicht zu verstehe Künstliche Sprache, z. B. Java for ( int i = 2; i < final. Bit; i++ ) if ( sieve. get( i ) ) for ( int j = 2 * i; j < size; j += i ) sieve. clear( j ); Neu: Für den Mensch leicht zu erzeugen: Für den Computer schwer zu verstehe Natürliche Sprache, z. B. Deutsch Ist 677 eine Primzahl? © W. Wahlster, DFKI

Warum ist Sprachverstehen für den Computer so schwer? Wortgrenzen gehen im Sprachfluß unter: Beispiel:

Warum ist Sprachverstehen für den Computer so schwer? Wortgrenzen gehen im Sprachfluß unter: Beispiel: „amontag“ „am Montag“ Der Mensch spricht „ohne Punkt und Komma“ Beispiel: „So machen wir das vielleicht klappt es“ Bedeutung (1) So machen wir das. Vielleicht klappt es. oder (2) So machen wir das vielleicht. Klappt es? © W. Wahlster, DFKI

Warum ist Sprachverstehen für den Computer so schwer? Gleiche Schallwellen werden je nach Kontext

Warum ist Sprachverstehen für den Computer so schwer? Gleiche Schallwellen werden je nach Kontext zu verschiedenen Wörtern Beispiel: „Urlauber wollen wieder me: r ans me: r“ Urlauber wollen wieder mehr ans Meer. Viele Menschen sprechen Dialekt Beispiel: „Isch find das nätt“ Bedeutung (1) Ich finde das nett. oder (2) Ich finde das nicht. © W. Wahlster, DFKI

Warum ist das Sprachverstehen für den Computer so schwer? Bei spontaner Rede entstehen viele

Warum ist das Sprachverstehen für den Computer so schwer? Bei spontaner Rede entstehen viele Versprecher Beispiel: „Wir treffen uns dann am Mon, äh, am Dienstag. “ Dialogpartner fallen dem Sprecher oft „ins Wort“ Beispiel: Sytem: „Können wir dann am Mittwoch zusammen zum Essen Sprecher: „Da kann ich nicht. “ © W. Wahlster, DFKI

Warum ist das Sprachverstehen für den Computer so schwer? Der Redefluß leitet häufig in

Warum ist das Sprachverstehen für den Computer so schwer? Der Redefluß leitet häufig in die Irre Beispiel: „Die Staatssekretärin der Ministerpräsident. “ lobt. . . Subjekt: Staatssekretärin Prädikat: lobt Objekt: ? ? Subjekt: Ministerpräsident Prädikat: lobt Objekt: Staatssekret Viele Formulierungen sind mehrdeutig Beispiel: „Wir telefonierten mit Freunden in Japan. “ Bedeutung (1) Wir telefonierten (mit Freunden in Japan). oder (2) (Wir telefonierten mit Freunden) in Japan. © W. Wahlster, DFKI

Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen l. Problem der kombinatorischen Explosion der Lesarten durch Propagierung

Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen l. Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen l Durch die Unsicherheit bei der Spracherkennung entstehen Wörtergitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen Orthographisch übersetzen Phonetisch me: r Pragmatisch Es zieht. Morphologisch Staubecken Mehrdeutigkeiten Semantisch Ein - Alle Lexikalisch Maus Syntaktisch mit dem Teleskop © W. Wahlster, DFKI

Künstliche Intelligenz INFORMATIK Wie können die für das Sprachverstehen benötigten kognitiven Leistungen maschinell verfügbar

Künstliche Intelligenz INFORMATIK Wie können die für das Sprachverstehen benötigten kognitiven Leistungen maschinell verfügbar gemacht werden? Psycholinguistik Wie wird Sprache von Menschen verstanden und generiert? KOGNITIONSWISSENSCHAFT Sprachverarbeitung Linguistik Wie können Sprachstrukturen mathematisch-logisch beschrieben werden? Sprachtechnologie Wie können effiziente, sprachverarbeitende und generierende Softwaresysteme erstellt werden? © W. Wahlster, DFKI

Code, Medium und Modalität CODE (Symbolsysteme) Sprache Graphik MEDIUM (Physikalischer Informationsträger) Eingabekanäle Ausgabekanäle Gestik

Code, Medium und Modalität CODE (Symbolsysteme) Sprache Graphik MEDIUM (Physikalischer Informationsträger) Eingabekanäle Ausgabekanäle Gestik Mimik MODALITÄT (Menschliche Sinne) Visuell System Benutzer Speicherung Festplatte CD-ROM Akustisch Taktil Haptisch © W. Wahlster, DFKI

Die Leitvorstellung multimodaler Interaktion Sprachlich. Dialogische Kommunikation Graphische Bedienoberflächen Taktil. Gestische Interaktionsform Multimodales Bedienparadigma

Die Leitvorstellung multimodaler Interaktion Sprachlich. Dialogische Kommunikation Graphische Bedienoberflächen Taktil. Gestische Interaktionsform Multimodales Bedienparadigma © W. Wahlster, DFKI

Drei Stufen der Sprachverarbeitung Akustische Sprachanalyse Eingabe Spracherkennung Wortlisten Grammatik Wortbedeutungen Gesprächs. Kontext Wissen

Drei Stufen der Sprachverarbeitung Akustische Sprachanalyse Eingabe Spracherkennung Wortlisten Grammatik Wortbedeutungen Gesprächs. Kontext Wissen über das Gesprächsthema Sprachanalyse e Sprachverstehen Reduktion von Unsicherheit Gesprochene Was hat der Sprecher gesagt? 100 Alternativen Was hat der Sprecher gemeint? 10 Alternativen Was will der Sprecher? Eindeutiges Verstehen im Gesprächszusammenhang © W. Wahlster, DFKI

Ergebnis der Spracherkennung: Worthypothesengraph © W. Wahlster, DFKI

Ergebnis der Spracherkennung: Worthypothesengraph © W. Wahlster, DFKI

Verzögerte Disambiguierung Skopusmehrdeutigkeiten auf der Basis von Unterspezifikation (A) Einen Computer benutzen alle Informatikstudenten.

Verzögerte Disambiguierung Skopusmehrdeutigkeiten auf der Basis von Unterspezifikation (A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x) y (informatik-student (y) benutzt (y, x))) (2) y (informatik-student (y) x (computer (x) benutzt (y, x))) Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung) (3) { x: computer, y: informatik-student} (benutzt (y, x)) (B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren> (1) (C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute> (2) © W. Wahlster, DFKI

Mobile Dialogübersetzung für Spontansprache Verbmobil-Server für die Dialogübersetzung Lösung: Dreierkonferenz: Der Verbmobil-Server vermittelt zwischen

Mobile Dialogübersetzung für Spontansprache Verbmobil-Server für die Dialogübersetzung Lösung: Dreierkonferenz: Der Verbmobil-Server vermittelt zwischen zwei Mobilfunkteilnehmern © W. Wahlster, DFKI

Mobile Dialogübersetzung über Handy mit dem System VERBMOBIL Ergebnis von 8 Jahren Forschung mit

Mobile Dialogübersetzung über Handy mit dem System VERBMOBIL Ergebnis von 8 Jahren Forschung mit einem Team von 100 Wissenschaftlern, 20 Produkte und 8 Spin-Off Firmen © W. Wahlster, DFKI

Von der Eingabeschallwelle zur Ausgabeschallwelle Schallwelle Mögliche Sätze Satzbedeutungen Wörter in Zielsprache Mögliche Phoneme

Von der Eingabeschallwelle zur Ausgabeschallwelle Schallwelle Mögliche Sätze Satzbedeutungen Wörter in Zielsprache Mögliche Phoneme Grammatische Struktur Diskursbedeutung in Quellsprache Satzgenerierung Mögliche Wörter Wortbedeutungen Diskursbedeutung in Zielsprache Satzmelodie Mögliche Sätze Satzbedeutungen Wortwahl in Zielsprache Sprachsynthese Sprachverstehen und Übersetzung Generierung und Synthese Spracherkennung Sprachanalyse © W. Wahlster, DFKI

Deutscher Zukunftspreis 2001 – Preis des Bundespräsidenten für Technik und Innovation für Sprachverstehende Computer

Deutscher Zukunftspreis 2001 – Preis des Bundespräsidenten für Technik und Innovation für Sprachverstehende Computer © W. Wahlster, DFKI

Vom Sprachdialog zum Multimodalen Dialog Klassische Mobiltelephonie UMTS-Mobilgerät der dritten Generation Verbmobil Smart. Kom

Vom Sprachdialog zum Multimodalen Dialog Klassische Mobiltelephonie UMTS-Mobilgerät der dritten Generation Verbmobil Smart. Kom Reine Sprache, Graphik, Gestik © W. Wahlster, DFKI

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Kooperation u. a. : EML - DFKI

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Kooperation u. a. : EML - DFKI - ISL Mobile Dialogführung Lokationsadaptive Interpretation von Benutzeranfragen © W. Wahlster, DFKI

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Sprachgesteuerte 3 D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik,

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Sprachgesteuerte 3 D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik, Bilder) © W. Wahlster, DFKI

Symbolische und Subsymbolische Fusion von Eingabemodalitäten Mimikerkennung Gestikerkennung Spracherkennung Prosodieerkennung Lippenlesen Subsymbolische Fusion Symbolische

Symbolische und Subsymbolische Fusion von Eingabemodalitäten Mimikerkennung Gestikerkennung Spracherkennung Prosodieerkennung Lippenlesen Subsymbolische Fusion Symbolische Fusion - Neuronale Netze - Hidden Markov Modell - Unifikation über Hypothesengittern - Bayessche Netze Referenzauflösung und Disambiguierung Bedeutungsrepräsentation © W. Wahlster, DFKI

Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991) X B A 2 Y A

Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991) X B A 2 Y A C 1 Z A E 3 „Warum soll ich das ‚A‘ löschen? “ © W. Wahlster, DFKI

Die SDDP-Interaktionsmetapher für Smart. Kom SDDP = Situated Delegation-oriented Dialog Paradigm IT-Dienste Personalisierter Interaktionsagent

Die SDDP-Interaktionsmetapher für Smart. Kom SDDP = Situated Delegation-oriented Dialog Paradigm IT-Dienste Personalisierter Interaktionsagent Benutzer Dienst 1 spezifiziert Wunsch delegiert Aufgabe kooperieren bei Problemen Dienst 2 stellt Nachfragen präsentiert Resultate Dienst 3 © W. Wahlster, DFKI

Kombination von Sprache und Gestik in Smart. Kom Auf Karte sind Ich der zeige

Kombination von Sprache und Gestik in Smart. Kom Auf Karte sind Ich der zeige ihnen Hier sehen sie in dieeine Kinos markiert, Übersicht einedie Übersicht denen der Film „Eine über Filme, die über das Programm kleine Weihnachtsheute abend im der. Fernsehen Heidelberger Kinos. geschichte“laufen. läuft. Welche Spielfilme Da ist nichts Den würde ich laufen für michden dabei. gerne sehen. heute abend Dann möchte ich Wo kommt der? im Fernsehen? doch lieber ins Kino gehen. © W. Wahlster, DFKI

Multimodale Ein- und Ausgabe in Smart. Kom Auf der Übersicht Eine sehen sie die

Multimodale Ein- und Ausgabe in Smart. Kom Auf der Übersicht Eine sehen sie die Anfangs. Reservierung Ich habe die Zeigen zeiten des sie Films ist in diesem gewünschte mirkleine wo Ist„Eine das richtig? Kinoso nicht Reservierung für Sie sie. Auf sitzen Weihnachtsgeschichte“ möglich. durchgeführt. wollen. im. Wiedersehen Kino „Schloß“. Ihre Reservierungsnummer ist 635. Sie können die Karten bis spätestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Dann einich Da würd‘ Gut. Ichwürd‘ hätte Da ich anderes Kino. gern Das war‘s. gern zwei Richtig. gern Das da reservieren. Dankeschön. Plätze hier. reservieren. vielleicht. Tschüss. © W. Wahlster, DFKI

Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und

Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, Smart. Kom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (Smart. Kom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung © W. Wahlster, DFKI

Disambiguierung durch Selektionsrestriktionen und Weltwissen Vater zu einem Service-Roboter im Cyber-Restaurant: (1) Die Apfelschorle

Disambiguierung durch Selektionsrestriktionen und Weltwissen Vater zu einem Service-Roboter im Cyber-Restaurant: (1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Tochter, Frau Mensch Getränk Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk) (B) trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle) © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Fusion und Allokation multipler Modalitäten in Smart. Kom © W. Wahlster, DFKI

Modalitätsspezifische Repräsentationssprachen als Zwischenstufe zur Medienfusion Bilder/ Graphiken Graphisches Bildverstehen Graphikgenerierung Bildbeschreibungssprache Sprachliche Äußerungen

Modalitätsspezifische Repräsentationssprachen als Zwischenstufe zur Medienfusion Bilder/ Graphiken Graphisches Bildverstehen Graphikgenerierung Bildbeschreibungssprache Sprachliche Äußerungen Parsing Generation Semantische Repräsentationssprache Wissensrepräsentationssprache Ontologien Inferenzkomponente Gestenanalyse Gestengenerierung Gestenbeschreibungssprache DBMS/ KBMS/ WWW © W. Wahlster, DFKI

Fusion von Sprach- und Mimikerkennung in Smart. Kom Modifikation bis hin zur Negation der

Fusion von Sprach- und Mimikerkennung in Smart. Kom Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDFProgramm. (2) Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2’) Benutzer: Echt toll. (3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen? © W. Wahlster, DFKI

Videobasierte Mimikerkennung auf der Basis von Eigenfaces neutral ärgerlich © W. Wahlster, DFKI

Videobasierte Mimikerkennung auf der Basis von Eigenfaces neutral ärgerlich © W. Wahlster, DFKI

Sprecherunabhängie Emotionserkennung neutral ärgerlich © W. Wahlster, DFKI

Sprecherunabhängie Emotionserkennung neutral ärgerlich © W. Wahlster, DFKI

Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger Smart. Kom bietet einen uniformenes

Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger Smart. Kom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien Benutzer: Ich möchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg. © W. Wahlster, DFKI

Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger Smartakus: Wir sind jetzt in Heidelberg

Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten. User: Ich möchte mehr Information über diese Kirche. Smartakus: Hier siehst die Webseite über die Peterskirche. User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert. © W. Wahlster, DFKI

Multomodale Kommunikation mit Unterhaltungselektronik Beispiel: Zugriff auf digitale Programmführer Benutzer: Welche Sender zeigen gerade

Multomodale Kommunikation mit Unterhaltungselektronik Beispiel: Zugriff auf digitale Programmführer Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten. © W. Wahlster, DFKI

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” © W. Wahlster, DFKI

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” © W. Wahlster, DFKI

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” © W. Wahlster, DFKI

Sprachtechnologie im Alltag Einen Capuccino in 10 Minuten bitte! Sprachgesteuerte Kaffeemaschine Bitte in die

Sprachtechnologie im Alltag Einen Capuccino in 10 Minuten bitte! Sprachgesteuerte Kaffeemaschine Bitte in die Winterbergstraße in Saarbrücken! Sprachdialog mit Fahrzeugelektronik Ich würde gerne Mozarts Klavierkonzert Nummer 3 hören! Sprachbasierte Musikauswahl Sende folgende Email an Meyer: Sehr geehrter Herr Meyer. Bitte senden Sie dringend die Agenda für Montag. Diktat von Emails © W. Wahlster, DFKI

Klassische Sprachsteuerung im Auto: Kein spontansprachlicher Dialog - Sprachaktivierungstaste © W. Wahlster, DFKI

Klassische Sprachsteuerung im Auto: Kein spontansprachlicher Dialog - Sprachaktivierungstaste © W. Wahlster, DFKI

for UMTS-based Multimodal Speech Erstes UMTS-Anwendungstestund Evaluationszentrum Services in Germany Node B at DFKI

for UMTS-based Multimodal Speech Erstes UMTS-Anwendungstestund Evaluationszentrum Services in Germany Node B at DFKI Saarbrücken PSTN, Telephone System Internet Content Provide r E 1/ATM Gigastream UMTS Navigation Switch Mobile Network RNC Munich UMTS-Doit Server Kooperation und

Embassi: Sprachbasierte Musikwahl © W. Wahlster, DFKI

Embassi: Sprachbasierte Musikwahl © W. Wahlster, DFKI

ORBA Auskunftsdienst: „Shop. Finder“ „Wo gibt es nächsten Geldautomaten ? “ m ORBA greift

ORBA Auskunftsdienst: „Shop. Finder“ „Wo gibt es nächsten Geldautomaten ? “ m ORBA greift auf online Produktkataloge, Shop- und Branchenverzeichnisse zu und lokalisiert die im jeweiligen Erreichbarkeitsradius liegenden Shops, von denen bekannt ist, dass sie das gesuchte Produkt vorhalten. m Shop. Finder ist kombinierbar mit: - multimedialer Produktinformation - Routenplanung und Zielführung © W. Wahlster, DFKI

ORBA Erinnerungsdienst: „Active. List“ „Erinnere mich an die Batterie für die Uhr, wenn ich

ORBA Erinnerungsdienst: „Active. List“ „Erinnere mich an die Batterie für die Uhr, wenn ich an einem entsprechenden Shop vorbeikomme !“ m ORBA erinnert an vorher notierte Kaufwünsche, sobald der Benutzer an dem explizit angegeben Shop vorbeikommt bzw. sich irgendeinem Shop nähert, von dem bekannt ist, dass er das gesuchte Produkt vorhält. m Active. List kombinierbar mit: - multimedialer Produktinformation; - „m. Coupon“ Aktionen; © W. Wahlster, DFKI

ORBA Ortungsdienst: „Partner. Radar“ „Wo (. . . ) stecken Lisa und Tom ?

ORBA Ortungsdienst: „Partner. Radar“ „Wo (. . . ) stecken Lisa und Tom ? “ m ORBA hilft beim Aufspüren und der Zusammenführung von Familien- Gruppenmitgliedern, sofern diese ebenfalls mit einem Mobilgerät ausgestattet sind, und ihre Ortung gestatten. m Partner. Finder ist kombinierbar mit: - Routenplanung und Zielführung - Geschäftsempfehlungen, z. B. zentral gelegenes Restaurant als Treffpunkt. © W. Wahlster, DFKI

Sprachtechnologie im Alltag Zeige mir alle Beiträge der Tagesschau, in denen Regierungsmitglieder zur Green

Sprachtechnologie im Alltag Zeige mir alle Beiträge der Tagesschau, in denen Regierungsmitglieder zur Green Card sprachen! Sprachgesteuerte Suche in digitalen Fernseharchiven Was hat der Ministerpräsident auf der COLING zur Sprachtechnologie gesagt? Inhaltliche Suche in privaten Audioarchiven Ich möchte gerne einen Termin mit Doktor Kuremastu nächste Woche in Kyoto ausmachen! Dialogübersetzung © W. Wahlster, DFKI

Sprachtechnologie für die Post-PC Ära Personalisierte Benutzeroberflächen l In der Hand tragbar Mobile Computing

Sprachtechnologie für die Post-PC Ära Personalisierte Benutzeroberflächen l In der Hand tragbar Mobile Computing l Am Körper anziehbar Wearable Computing l Im Körper implantierbar Biohybrid Computing © W. Wahlster, DFKI

Offene Forschungsprobleme l Probleme der maschinellen Lernverfahren L Teuere Datensammlung L Kognitiv unrealistische Trainingsdaten

Offene Forschungsprobleme l Probleme der maschinellen Lernverfahren L Teuere Datensammlung L Kognitiv unrealistische Trainingsdaten L Datenknappheit l. Probleme mit manuell erstellten Wissensquellen L Mangelnde Robustheit L Domänenabhängigkeit L Geringe Skalierbarkeit © W. Wahlster, DFKI

Vielen Dank für Ihre Aufmerksamkeit © 2002 DFKI . by R. O ©Design W.

Vielen Dank für Ihre Aufmerksamkeit © 2002 DFKI . by R. O ©Design W. Wahlster, DFKI