Puheteknologian uudet menetelmt ja sovellukset Juhani Saastamoinen Joensuun

  • Slides: 27
Download presentation
Puheteknologian uudet menetelmät ja sovellukset Juhani Saastamoinen Joensuun yliopisto 26. 2. 2004 University of

Puheteknologian uudet menetelmät ja sovellukset Juhani Saastamoinen Joensuun yliopisto 26. 2. 2004 University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puheteknologian tutkimus Joensuussa • Yleisen kielitieteen erikoisalaa, tietojenkäsittelytiede yhteistyössä • Kielitiede: perustutkimusta, fonetiikka, prosodia,

Puheteknologian tutkimus Joensuussa • Yleisen kielitieteen erikoisalaa, tietojenkäsittelytiede yhteistyössä • Kielitiede: perustutkimusta, fonetiikka, prosodia, synteesi, puhujantunnistus • TKT: puhetekniikan menetelmät – – Hahmontunnistusmenetelmät Datafuusio Automaattinen tunnistus, reaaliaikaisuus Osaamista myös suomenkielisessä puheentunnistuksessa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Historia • SUOPUHE-projekti – Kielitiede mukana – Tulos: laadukas suomen puhesynteesi • TKT: lla

Historia • SUOPUHE-projekti – Kielitiede mukana – Tulos: laadukas suomen puhesynteesi • TKT: lla yllättäviä tuloksia: – puhujantunnistus onnistuu automaattisilla menetelmillä, ilman lingvistiikkaa – Useita graduja: Kinnunen (’ 99), Kilpeläinen (’ 02), Karpov (’ 03), Pulkrabek (’ 03). – Väitöskirjatason tutkimusta: Kinnunen ja Karpov sekä muita sivuavista aiheista. University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

PUMS-projekti Puhetekniikan Uudet Menetelmät ja Sovellukset (2003 -2006) • Tekes-projekti, jossa useita yritys- ja

PUMS-projekti Puhetekniikan Uudet Menetelmät ja Sovellukset (2003 -2006) • Tekes-projekti, jossa useita yritys- ja yhteisöosapuolia, korkeakouluista TTY, TKK, Ta. Y, HY, Jo. Y, sekä VTT. • 1. vuosi: Joensuussa kaksi henkilötyövuotta puhujantunnistukseen. • On-line tunnistus (Nokia, Lingsoft) 1, 5 v. • Off-line tunnistus (Prof. Match) 0, 5 v. • http: //cs. joensuu. fi/pages/pums/ University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Tutkimusryhmä Pasi Fränti Juhani Saastamoinen Evgeny Karpov University of Joensuu Dept. of Computer Science

Tutkimusryhmä Pasi Fränti Juhani Saastamoinen Evgeny Karpov University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Ville Hautamäki Tomi Kinnunen Ismo Kärkkäinen

Mistä puhe koostuu? • Sisältö: puhujan tarkoittama viesti • Puhujan ominaisuudet: ääntöväylä, puhetapa •

Mistä puhe koostuu? • Sisältö: puhujan tarkoittama viesti • Puhujan ominaisuudet: ääntöväylä, puhetapa • Siirtoväylä: puheympäristön akustiikka, sähköiset laitteet • Aikariippuvat puhujaparametrit: tunnetila, terveydentila • Kieli, murre University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Mitä on puhetekniikka? • • • Puhesynteesi Puheentunnistus Puhujan tunnetilan, kielen, jne. tunnistus Sovellukset

Mitä on puhetekniikka? • • • Puhesynteesi Puheentunnistus Puhujan tunnetilan, kielen, jne. tunnistus Sovellukset – sähköpostinlukijat, puheohjaus, henkilövarmennus, rikostutkinta, näkö- ja kuulovammaisten palvelut University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhesignaalin analyysi • Yleisesti käytetty menetelmä: – digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä –

Puhesignaalin analyysi • Yleisesti käytetty menetelmä: – digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä – usein spektriä jalostetaan edelleen helpommin luokittelijan opetukseen sopivaksi, esim. lineaarinen suodinpankki + log + IFT – spektrien käyttö ja muokkaustekniikka riippuu sovelluksesta • Muitakin menetelmiä on: – suodatus tai muu analyysi aika-alueessa – perustaajuuden tai formanttien selvittäminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Esimerkki: ”yksi” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN-

Esimerkki: ”yksi” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Äänteiden spektrit: ”yksi” University of Joensuu Dept. of Computer Science P. O. Box 111

Äänteiden spektrit: ”yksi” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puheentunnistus • Mallinnetaan puheen sisältö – signaalinkäsittely pohjautuu usein mel-suodinpankkiin – mel-spektrien luokittelu Markov-ketjun

Puheentunnistus • Mallinnetaan puheen sisältö – signaalinkäsittely pohjautuu usein mel-suodinpankkiin – mel-spektrien luokittelu Markov-ketjun tiloihin sanoina, äänteinä (monofoni tai trifoni) tai muina yksikköinä – Kielimalli rajoittaa tilasiirtymiä • Opetusaineisto: paljon puhetta – vähintään sana-annotointi – paljon puhujia opetusaineistossa => puhujariippumaton puheentunnistin – vähän puhujia opetusaineistossa => puhujariippuva tunnistin – komentotunnistin helppo, saneluautomaatti vaikeampi University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujantunnistus • Mallinnetaan puheesta puhujaominaisuudet – signaalista ja sen spektreistä etsitään hyvin puhujia erottelevia

Puhujantunnistus • Mallinnetaan puheesta puhujaominaisuudet – signaalista ja sen spektreistä etsitään hyvin puhujia erottelevia ominaisuuksia – myös puheentunnistuksen signaalinkäsittely toimii – muut ominaisuudet sivuseikka • Tallennetaan kunkin puhujan ominaisuudet • Talletettujen mallien avulla päätellään kuka puhui – puhujantunnistus – puhujanvarmennus • Opetusaineisto: puhenäytteitä puhujilta joita halutaan tunnistaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujantunnistus: pääpiirteet Mallin luonti . . . Piirreirrotus Puhujatietokanta Opetus Puhuja N Puhuja 1

Puhujantunnistus: pääpiirteet Mallin luonti . . . Piirreirrotus Puhujatietokanta Opetus Puhuja N Puhuja 1 Piirreirrotus Hahmontunnistus ? Tunnistus Päätöslogiikka Tunnistustulos / Varmennustulos University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Esimerkki: Spektrit “Puhetietokanta” Tunnistus: kuka puhuu tässä? University of Joensuu Dept. of Computer Science

Esimerkki: Spektrit “Puhetietokanta” Tunnistus: kuka puhuu tässä? University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Ongelma: puhujakohtainen vaihtelu University of Joensuu Dept. of Computer Science P. O. Box 111

Ongelma: puhujakohtainen vaihtelu University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Signaalivirran käsittely Kehys 2 Kehys 1 Kehys 3 . . . Kehys i .

Signaalivirran käsittely Kehys 2 Kehys 1 Kehys 3 . . . Kehys i . . . Päällekkäisyys Ikkunafunkio Spektrianalyysi Kehyksen pituus Piirreirrotus Piirrevektori xi University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM) University of Joensuu Dept. of Computer Science

Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM) University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujaprofiilin muodostuminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN-

Puhujaprofiilin muodostuminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Mallien vertailu • Kahden puhujan vertailu: piirrejakaumien vertailu • Lasketaan diskreettien jakaumien etäisyyksiä Puhujan

Mallien vertailu • Kahden puhujan vertailu: piirrejakaumien vertailu • Lasketaan diskreettien jakaumien etäisyyksiä Puhujan no. 1 piirrevektorit tunnistettava puhuja Puhujan no. 3 piirrevektorit Puhujan no. 2 piirrevektorit University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujien karsinta • Tehostaa tunnistusta reaaliaikasovelluksiin University of Joensuu Dept. of Computer Science P.

Puhujien karsinta • Tehostaa tunnistusta reaaliaikasovelluksiin University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Piirrefuusio • Parantaa tunnistustarkkuutta University of Joensuu Dept. of Computer Science P. O. Box

Piirrefuusio • Parantaa tunnistustarkkuutta University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Painotettu luokittelu • Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Hyviä” vektoreita puhujan #2 erotteluun

Painotettu luokittelu • Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Hyviä” vektoreita puhujan #2 erotteluun ”Hyviä” vektoreita puhujan #1 erotteluun ”Huonoja” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Akustiikan vaikutus • • Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma Joensuussa tutkitaan myös sitä

Akustiikan vaikutus • • Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma Joensuussa tutkitaan myös sitä kuinka tästä voidaan päästään eroon Frekvenssi Päätösraja Petkuttajan piirrejakauma Todellisen puhujan piirrejakauma Laboratorio-oloissa nauhoitettu opetusaineisto Score Frekvenssi Hylätty Hyväksytty Petkuttajan piirrejakauma Todellisen henkilön piirrejaauma Meluisa käyttöympäristö Score Seuraus: kaikki puhujat hyväksytään! University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

PUMS-projektin tavoitteet • Totetuttaa tehokkaimmat puhujantunnistustekniikat – – – • Puhujaprofiilien hallinta sekä puhujantunnistus

PUMS-projektin tavoitteet • Totetuttaa tehokkaimmat puhujantunnistustekniikat – – – • Puhujaprofiilien hallinta sekä puhujantunnistus Signaali: kepstrit, Delta-kert, CMS, optimisuodinpankki Profiilitietokanta ja luokittelumenetelmät: VQ, GMM Toteutuksen siirto yhteistyötahojen sovellusalustoille – – PC-ohjelmisto: puhujaprofiilien hallinta ja tunnistus Matkapuhelimessa toimiva puhujantunnistus • Systemaattinen testaus eri käyttöoloissa ja laitteissa • Pitkällä aikavälillä uusia tehokkaampia menetelmiä – – – Eri piirteiden yhtaikainen käyttö (fuusio) Segmentoinnin hyödyntäminen: erotteleva piirreirrotus Optimaalisesti erottelevat opetus-ja tunnistusmenetelmät Kunnollinen luotettavuusestimaatti puhujanvarmennukseen Reaaliaikasovellukset University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Kehitettävät ohjelmistot • Profmatch – PC-ohjelmisto (ANSI-C konsoli) – Perusalgoritmit off-line tunnistukseen ja kehittyneempiä

Kehitettävät ohjelmistot • Profmatch – PC-ohjelmisto (ANSI-C konsoli) – Perusalgoritmit off-line tunnistukseen ja kehittyneempiä menetelmiä kuten piirrefuusio • Sprofiler – PC-ohjelmisto (ANSI-C konsoli), mikrofonituki – profiilitietokannan hallinta, on-line tunnistus – sisältää kehittyneempiä menetelmiä kuten karsinta • Uudet ohjelmat reaaliaikatunnistukseen – Windows, ”Sprofiler-yhteensopiva” – Symbian-matkapuhelimessa toimiva sovellus University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Symbian ja Series 60 • Vähän resursseja – muisti – laskentateho – Series 60

Symbian ja Series 60 • Vähän resursseja – muisti – laskentateho – Series 60 • Ei liukulaskentaa – laskenta-algoritmit muutettava fixedpoint-tyyppisiksi ja virheanalyysit tehtävä uudelleen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Application Concepts Top Entryof. Level the Line CLIENT Technology Components ID • =Media Identification

Application Concepts Top Entryof. Level the Line CLIENT Technology Components ID • =Media Identification technology, • UI consists of • FE • CLASS. : Speaker Modeling • Part of and Classification application • F. E. : Feature Extractor DB = Speaker Model Database U. I. = User Interface UI TCP/IP ID FE CLASS. DB Client small large University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Server