Knekommunikatsioon ja tehnoloogia Einar Meister TT Kberneetika Instituut
Kõnekommunikatsioon ja tehnoloogia Einar Meister TTÜ Küberneetika Instituut Foneetika ja kõnetehnoloogia labor Akadeemia tee 21 Tallinn 12618 http: //www. phon. ioc. ee
Teemad n n n Kõnekommunikatsioon olemus (produktsioon, akustika, tajumine) Keele- ja kõnetehnoloogia Kõnesüntees Kõnetuvastus Kõne andmebaasid Kõnelejatuvastus
Kõnekommunikatsiooni ahel Kõneleja mõte i -> Kõnesignaal -> Kuulaja mõte Lingvistiline tasand mõtte kujunemine mõtte keeleline väljendus Füsioloogiline tasand närviimpulsid kõneorganite tegevus närviimpulsid kuulmisorganite tegevus Akustiline tasand SÜNTEES ANALÜÜS i
Definitsioonid Foneetika (häälikuõpetus, hääldusõpetus) on teadus, mis uurib inimkõne üksusi - häälikuid - artikulatoorsest, akustilisest ja pertseptiivsest aspektist. Artikulatoorne foneetika uurib kõneorganite tegevust kõneloome protsessis. Akustiline foneetika uurib häälelainet ja selle vahendusel edastatava suulise kõne üksuste akustilisi omadusi. Pertseptiivne e. tajufoneetika uurib häälelainega edastatavate hääldusüksuste kuuldelise eristamise ja tajumise (äratundmise) probleeme. Artikulatoorne, akustiline ja pertseptiivne foneetika püüavad oma uurimistulemuste abil selgitada hääldamisliigutuste, akustiliste tunnuste ja taju vahelisi seoseid.
Definitsioonid Foneetika põhiüksus - häälik - on väikseim kuuldeliselt eristatav artikulatoorsete ja / või akustiliste omadustega määratletav kõnesegment. Häälikute hulk on lõpmatu. Häälikute kvaliteeti mõjutavad tema positsioon, naaberhäälikud, kõneleja kõneorganite anatoomia, kõneleja emotsionaalne seisund. Häälikuklassi abstraktsioon e. invariantne etalon on foneem Foneem on fonoloogia põhiüksus. Fonoloogia uurib lõplikku hulka (põhimõtteliselt hääldatavaid) invariantseid üksusi, mis on piisavad ja tarvilikud uuritavas keeles kõigi erinevaiks peetavate sõnavormide, fraaside ja lausete eristamiseks. Iga foneem realiseerub kõnes mingi häälikuna. Foneemivariant e. allofoon on foneemi püsivate tunnuste miinimumkomplekt pluss positsioonist, häälikümbrusest või kõnelejast tingitud varieeruvad tunnused.
Veel foneemi mõistest Foneem on abstraktsioon, reaalsuses esineb ta variantide e. allofoonidena. Olulisim on foneemi distinktiivne e. tähendust eristav funktsioon. Erinev foneemikombinatsioon annab erineva häälikulise vormi, millele saab anda tähenduse. Foneemil endal ei ole tähendust. Foneem on ühe häälikuperekonna oluliste e. relevantsete ühistunnuste miinimumkomplekt, mida konkreetses häälikümbruses täiendatakse reduntantsete (liiaste) tunnustega, mis sobitavad foneemivariandi tema häälikümbrusse. Foneem on psühholoogiline reaal. Kõneleja ja kuulaja kas ei märka foneemivariantide erinevusi üldse või siis ei omista neile erinevustele mingit tähendust. Küsimus: Mitu foneemi on eesti keeles?
Kõne produktsioon: kõneorganid kõva suulagi ninaõõs pehme suulagi suuõõs kõripealis keeleluu sõrmuskõhr kilpkõhr häälekurrud hingetoru söögitoru rinnak kopsud diafragma
Kõnetrakti piiravad ja muutvad häälduselundid 3 7 8 6 1 5 16 2 13 10 14 17 15 9 12 1 18 2 11 4 1 – huuled, 2 – hambad, 3 – ülalõualuu, 4 – alalõualuu, 5 – hambasombud, alveoolid, 6 – postalveolaarne häälduskoht, 7 – kõva suulagi, palaatum, 8 – pehme suulagi, veelum, 9 – kurgunibu, 10 – neelu tagasein, 11 – kõripealis, 12 - keel, 13 – keeletipp, 14 – keelelaba, 15 – keeleselja eesosa, predorsum, 16 – keeleselja keskosa, mediodorsum, 17 – keeleselja tagaosa, postdorsum, 18 – keelejuur, keelepära.
Hääleallikas Põhitooni impulsid: Põhitooni periood T 0: Põhitooni sagedus F 0: T 0 F 0 = 1/ T 0
Kõnetrakti mudelid Allikas - filter mudel F 0 Võimendus A 0 Filtrikordajad Hääleallikas Müraallikas Lineaarsed filtrid Kõnesignaal
Kõnetrakti mudelid Torumudelid /a/: A 1 = 1 cm 2 A 2 = 7 cm 2 l 1 = 1 cm l 2 = 7 cm /i/: A 1 = 8 cm 2 A 2 = 1 cm 2 l 1 = 8 cm l 2 = 1 cm A 1 A 2 l 1 l 2 A 1 l 1 A 2 l 2 A 3 A 4 l 3 l 4
Eesti häälikusüsteem Vokaalid:
Eesti häälikusüsteem Konsonandid: (1) - helilised: l, r, m, n, h, v, j - helitud: p, t, k, h, s, š, f, h (2) moodustusviis järgi: - sulghäälikud e. klusiilid: k, p, t - ninahäälikud e. nasaalid: m, n, h - ahtushäälikud e. spirandid: w, v, f, s, r, l, j, š, h (3) moodustuskoha järgi: - huulhäälikud: p, m, v, f, w - hammashäälikud: t, n, s, r, l - suulaehäälikud: k, h, j, š - kõrihäälik: h
Eesti häälikusüsteem
Akustiline analüüs AD muundur Anti-alias filter DSP protsessor DA muundur Anti-alias filter Analoogsignaali diskreetimine: diskreetrimissagedus Fd >= 2* Fnyquist Fd = 48 k. Hz - professionaalne audio 44 k. Hz - CD mängija 22 k. Hz - multimeedia 8 -16 k. Hz - kõne resolutsioon: 16 bitti (signaal/müra suhe 96 d. B) 22 bitti (130 d. B)
Kõneanalüüsi põhimeetodid n n Fourier teisendus - FFT, DFT Spektraalanalüüs -> lühiajaline spekter -> pikaajaline spekter -> spektrogramm n n n n Lineaarne prognoos (linear prediction) Kepstraalanalüüs -> kepster, MFCC Formantanalüüs Põhitooni analüüs Autokorrelatsioon Ristkorrelatsioon jt
Kõne akustiline analüüs f o n e: t i k a
Kõne akustiline analüüs
Kõne akustiline analüüs
Kõne akustiline analüüs
Kõne akustiline analüüs
Eesti vokaalid hääldusruumis A. Eek, E. Meister, Acoustics and perception of Estonian vowel types. - Phonetic Experimental Research, Institute of Linguistics, University of Stockholm, PERILUS XVIII, 1994: 55 -90.
Kõneanalüüsisüsteemid Computerized Speech Lab, Kay Elemetrics Corp. , USA Speech Filing System, Mark Huckvale, UCL, UK ESPS/Waves, Entropic, UK Intelligent Speech Analyzer, Pitchsystems OY, Soome SIS, Speech Technology Center, St. Petersburg Speech. Station 2, Sensimetrics Ltd. , USA Quick. Sig, Acoustics Lab, HUT, Soome Caesar, Avaaz Ltd. , Kanada Praat, P. Boersma, Holland. . . . .
Praat DEMO Signaalide akustiline analüüs: n n n Segmenteerimine Tunnused – F 0, intensiivsus, spektrogramm, formandid, jne.
Pertseptiivne foneetika n n Pertseptiivne e. tajufoneetika uurib häälelainega edastatavate hääldusüksuste kuuldelise eristamise ja tajumise (äratundmise) probleeme. Eesmärgiks on erinevate kõneüksuste tajumiseks oluliste tunnuste väljaselgitamine, kõnetaju iseärasusi arvestavate mudelite loomine kõne- ja kõnelejatuvastuseks.
Kõrva ehitus Esik ja poolringkanalid Alasi Kõrvalest Vasar Kuulmenärv Ovaalaken Kuulmekile Tigu Jalus Kuulmetõri Ümaraken
Kõrva ehitus Teos on basilaarmembraan, kus asuvad fibrillid kuulmiskiud e. basilaarkiud (20000 - 24000) Basilaarmembraani pikkus on 32 mm Basilaarmembraanil asetseb Corti organ e. spiraalelund, mis koosneb mitut liiki karvarakkudest. Need muudavad basilaarmembraani mehaanilised võnkumised elektrilisteks närviimpulssideks, mis teonärvi kiudude kaudu juhitakse ajukoore kuulmistsentrisse.
Kuulmise eripärad Helinivoo: 0 d. B - 130 d. B Kuuldav sageduspiirkond: 20 Hz - 20 k. Hz Maskeerimisefekt Kriitilised ribad Helikõrgus
Kuulmise eripärad Samavaljusjooned: Helinivoo, d. B Helivaljus foonides Kuulmislävi Sagedus (Hz)
Kuulmise eripärad Helikõrguse skaalad: - Hz - mel-skaala: m = 2595 log 10(1 + f/700) m= 1000 log 2(1 + f/1000) -Bark-skaala z = 13 arctan(0, 00076 f) + 3, 5 arctan(f / 7500)2 z = [26, 81 f / (1960 + f)] – 0, 53 -ERB-skaala RERB = 21, 3 log 10(1+f/228, 7)
Kuulmise eripärad
Basilaarmembraani mudel
Valjusspekter ja auditiivne spekter LS 64 (resolution = 98 Hz) AS 42 (resolution = 0. 5 Bark)
Eesti vokaalid tajuruumis A. Eek, E. Meister, Acoustics and perception of Estonian vowel types. - Phonetic Experimental Research, Institute of Linguistics, University of Stockholm, PERILUS XVIII, 1994: 55 -90.
Kategooriline taju Eri keeltes on erinev hulk fonoloogilisi kategooriaid: • • Lühikese – pika hääliku vastandus Erinev foneemide hulk, näiteks: vokaalid eesti soome itaalia poola tšehhi creek 9 8 7 6 5 3 Kuidas jaotub vokaaliruum eri keelte korral? Turu Ülikooli vokaalitest http: //www. utu. fi/hum/fonetiikka/
F 2, Hz Eesti – 9 vokaali 2800 600 240 800 F 1, Hz
Rootsi – 9 vokaali
Soome – 8 vokaali
Saksa – 8 vokaali
Itaalia – 7 vokaali
Poola – 6 vokaali
Tšehhi – 5 vokaali
Hispaania – 5 vokaali
Tajueksperimendid n n Vältetaju Lühikese-pika hääliku taju
Mis on keeletehnoloogia? Keeletehnoloogia on keelealaste teadmiste rakendamine arvutisüsteemide loomiseks, mis võimaldavad analüüsida, tuvastada, mõista ja sünteesida inimkeelt kõigis tema vormides. KT avardab võimalusi: · · · inimese ja arvuti vahelise suhtluse parandamiseks, informatsiooni paremaks esitamiseks, kasutamiseks, otsimiseks ja analüüsimiseks, inimkeele paremaks mõistmiseks ja töötlemiseks.
KT komponendid Tehnoloogilised lahendused: kõne süntees ja tuvastus, morfoloogiline, süntaktiline ja semantiline analüüs, masintõlge, keeleõppevahendid, jne Keeleressursid: kõne- ja tekstikorpused, elektroonsed sõnastikud ja andmebaasid, ressursside loomise ja haldamise vahendid Teadmised keele ehitusest: foneetika, fonoloogia, morfoloogia, süntaks, semantika, pragmaatika
Kõnetehnoloogia: n n n tehnoloogilised lahendused kõnesignaalide salvestuseks, töötluseks, analüüsiks, sünteesiks ja tuvastuseks kõneressursid (andmebaasid) uuringuteks, süsteemide treenimiseks ja testimiseks praktilised rakendused: n n n n kõnesüntees kõnetuvastus kõne kodeerimine ja edastamine keeleõppeprogrammid dialoogsüsteemid abivahendid puuetega inimestele jne.
Inimene-masin suhtlusvormide areng Kangid, nupud Teksti-põhine kasutajaliides Graafiline kasutajaliides + hiir Puutetundlikud ekraanid Hääljuhtimine
Hiroya Fujisaki (University of Tokyo): “From mind to mind - the ultimate goal of speech science and spoken language technology” Tere! Estonian Speech Recognition Estonian Speech Synthesis Estonian <-> English MT
Näiteid edukatest rakendustest n MS Windows XP: kõnetuvastus, morfoloogiline analüüs, grammatikakontroll, peagi tulemas masintõlge inglise hispaania, inglise prantsuse, inglise saksa, inglise jaapani, inglise hiina, prantsuse hispaania, hiina jaapani n n n Nuance: “Say Anything” tehnoloogia - kõnetuvastus, loomuliku keele mõistmine, kõnelejatuvastus, kõnesüntees - dialoogsüsteemide arendusplatvorm - hulgaliselt edukalt toimivaid süsteeme kogu maailmas Scansoft: väga hea ingliskeelne kõnesüntees Loquendo: n n n Itaalia raudtee infosüsteem (3500 peatuse nimetust, 30000 kõnet päevas, 90% päringutest teostatud automaatselt) hääleportaalid: noorteportaal (muusika, sport - 150000 kõnet päevas), infotelefon (300000 kõnet päevas) telefonipangandus
KT roll infoühiskonnas n n n n n Info- ja kommunikatsioonitehnoloogias rakendatakse üha enam loomuliku keele liideseid KT on oma olemuselt keele-spetsiifiline KT-küpsed keeled on eelkõige suure kõnelejate arvuga keeled (> 50 milj. kõnelejat) Keelte puhul, mille kõnelejate arv on alla 10 miljoni, on keeletehnoloogia arendustöö majanduslikult mõttetu Maailmas on üle 6000 keele, igas kuus hävib kaks keelt Keeled, mida Microsoft elektrooniliselt ei toeta, hakkavad tasapisi välja surema (Microsoft’i seisukoht 1998) IT areng asetab keeled ebavõrdsesse seisu - KT arendus peaks tagama keeltele võrdsed kasutusvõimalused Minevik: keeled, millel ei arendatud välja kirjakeelt, on tänaseks ammu välja surnud Tulevik: keeled, millel puudub arvutitugi, on kindlasti määratud väljasuremisele
KT arendus on Eestile oluline: n n n n et tagada eesti keele ja kultuuri kestmine ning areng et tagada eesti keelele suurte keeltega võrdsed kasutusvõimalused IT-keskkonnas et tõsta Eesti konkurentsivõimet rahvusvahelises äris et tõsta Eesti haldussuutlikust Euroopa Liidus et arendada kasutajasõbralikke tehnoloogiaid ja luua innovatiivseid teenuseid et luua võrdsed võimalused puuetega inimestele et …
- Slides: 52