Bayerisches Archiv fr Sprachsignale Florian Schiel Christoph Draxler
Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | draxler @bas. uni-muenchen. de Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München http: //www. bas. uni-muenchen. de/Bas Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 1
BAS Überblick Motivation gegründet 1995 (Hans Tillmann) Auftrag Bereitstellung und Entwicklung von deutschen Sprach. Ressourcen für Wissenschaft und Technik Archiv 26 Sprachkorpora ELDA/LDC-Kataloge: 85% aller deutschen Sprachkorpora 3 Lexika 20% aller deutschen 5 multimodale Korpora Aussprachelexika 1 Gebärdensprachkorpus Speech. Recorder Internet-basierte Sprachaufnahme (Wiki. Speech) Münchner Automatische Segmentierung (MAUS) Münchner Automatische Sprecherverifikation (MASV) Text-to-Phoneme (BALLOON) Software Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 2
BAS Neueste Korpora Motivation Ph@tt. Sessionz Sprache Jugendlicher Aufnahmen über das Internet an 41 Schulen 864 Sprecher Alcohol Language Sprache unter Alkoholeinfluss Corpus 150 Sprecher Smart. Web multimodale PDA-Interaktion Sprache auf Motorrad 281 Sprecher Signum erstes Videokorpus mit deutscher Gebärdensprache 25 Gebärder Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 3
BAS Vision Motivation Akuter Bedarf: Transnationales Corpus für Deutsch (TCD) • Vorbilder BNC (Großbritannien), CGN (Belgien/Niederlande) • Schweiz, Österreich, Deutschland, Luxemburg, Italien Umfang • mindestens 10 Mio Wörter Sprachaufnahmen, davon • 1 Mio Wörter transliteriert/segmentiert • Terminologien/Ontologien für 10 Domänen Organisation • Konsortium der beteiligten Staaten • öffentlich verfügbar • Finanzbedarf ca. 20 Mio EUR • Dauer 4 Jahre (+ 1 Jahr Planungsphase) Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 4
Ph@tt. Sessionz Motivation Sprachaufnahmen über das Internet • Training von Spracherkennungssystemen • Untersuchung regionaler Variation • 41 Schulen (Gymnasien) in Deutschland • 90 h Sprachdaten in hoher Qualität Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 5
BAS ALC Motivation ● Kooperation mit Rechtsmedizin (LMU) ● 150 Sprecher (75 f+75 m) alkoholisiert/nüchtern ● Atemalkohol- und Blutalkoholtests ● Sprachtypen: gelesen, Monolog, Dialog, Command&Control ● Vision: automatische Detektion im Fahrzeug Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 6
BAS Smart. Web Motivation ● Realistische Interaktion mit Smart. Phone / PDA ● Sprachgesteuerter Web-Zugriff vom fahrenden Motorrad ● Triaden-Kommunikation: Mensch - Maschine ● On. Focus / Off. Focus durch Gesichtsvideo Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 7
BAS SIGNUM Motivation ● Erstes deutsches Gebärdensprachkorpus ● Kooperation mit Universität Aachen ● 25 Gebärder mit 450 Glossen und 780 'Sätzen' ● 1 TByte Videodaten Sprachressourcen-Gipfel IDS Mannheim 15. -16. Mai 2009 8
- Slides: 8