Puheteknologian uudet menetelmt ja sovellukset Juhani Saastamoinen Joensuun
- Slides: 27
Puheteknologian uudet menetelmät ja sovellukset Juhani Saastamoinen Joensuun yliopisto 26. 2. 2004 University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puheteknologian tutkimus Joensuussa • Yleisen kielitieteen erikoisalaa, tietojenkäsittelytiede yhteistyössä • Kielitiede: perustutkimusta, fonetiikka, prosodia, synteesi, puhujantunnistus • TKT: puhetekniikan menetelmät – – Hahmontunnistusmenetelmät Datafuusio Automaattinen tunnistus, reaaliaikaisuus Osaamista myös suomenkielisessä puheentunnistuksessa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Historia • SUOPUHE-projekti – Kielitiede mukana – Tulos: laadukas suomen puhesynteesi • TKT: lla yllättäviä tuloksia: – puhujantunnistus onnistuu automaattisilla menetelmillä, ilman lingvistiikkaa – Useita graduja: Kinnunen (’ 99), Kilpeläinen (’ 02), Karpov (’ 03), Pulkrabek (’ 03). – Väitöskirjatason tutkimusta: Kinnunen ja Karpov sekä muita sivuavista aiheista. University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
PUMS-projekti Puhetekniikan Uudet Menetelmät ja Sovellukset (2003 -2006) • Tekes-projekti, jossa useita yritys- ja yhteisöosapuolia, korkeakouluista TTY, TKK, Ta. Y, HY, Jo. Y, sekä VTT. • 1. vuosi: Joensuussa kaksi henkilötyövuotta puhujantunnistukseen. • On-line tunnistus (Nokia, Lingsoft) 1, 5 v. • Off-line tunnistus (Prof. Match) 0, 5 v. • http: //cs. joensuu. fi/pages/pums/ University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Tutkimusryhmä Pasi Fränti Juhani Saastamoinen Evgeny Karpov University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Ville Hautamäki Tomi Kinnunen Ismo Kärkkäinen
Mistä puhe koostuu? • Sisältö: puhujan tarkoittama viesti • Puhujan ominaisuudet: ääntöväylä, puhetapa • Siirtoväylä: puheympäristön akustiikka, sähköiset laitteet • Aikariippuvat puhujaparametrit: tunnetila, terveydentila • Kieli, murre University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Mitä on puhetekniikka? • • • Puhesynteesi Puheentunnistus Puhujan tunnetilan, kielen, jne. tunnistus Sovellukset – sähköpostinlukijat, puheohjaus, henkilövarmennus, rikostutkinta, näkö- ja kuulovammaisten palvelut University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhesignaalin analyysi • Yleisesti käytetty menetelmä: – digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä – usein spektriä jalostetaan edelleen helpommin luokittelijan opetukseen sopivaksi, esim. lineaarinen suodinpankki + log + IFT – spektrien käyttö ja muokkaustekniikka riippuu sovelluksesta • Muitakin menetelmiä on: – suodatus tai muu analyysi aika-alueessa – perustaajuuden tai formanttien selvittäminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Esimerkki: ”yksi” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Äänteiden spektrit: ”yksi” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puheentunnistus • Mallinnetaan puheen sisältö – signaalinkäsittely pohjautuu usein mel-suodinpankkiin – mel-spektrien luokittelu Markov-ketjun tiloihin sanoina, äänteinä (monofoni tai trifoni) tai muina yksikköinä – Kielimalli rajoittaa tilasiirtymiä • Opetusaineisto: paljon puhetta – vähintään sana-annotointi – paljon puhujia opetusaineistossa => puhujariippumaton puheentunnistin – vähän puhujia opetusaineistossa => puhujariippuva tunnistin – komentotunnistin helppo, saneluautomaatti vaikeampi University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujantunnistus • Mallinnetaan puheesta puhujaominaisuudet – signaalista ja sen spektreistä etsitään hyvin puhujia erottelevia ominaisuuksia – myös puheentunnistuksen signaalinkäsittely toimii – muut ominaisuudet sivuseikka • Tallennetaan kunkin puhujan ominaisuudet • Talletettujen mallien avulla päätellään kuka puhui – puhujantunnistus – puhujanvarmennus • Opetusaineisto: puhenäytteitä puhujilta joita halutaan tunnistaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujantunnistus: pääpiirteet Mallin luonti . . . Piirreirrotus Puhujatietokanta Opetus Puhuja N Puhuja 1 Piirreirrotus Hahmontunnistus ? Tunnistus Päätöslogiikka Tunnistustulos / Varmennustulos University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Esimerkki: Spektrit “Puhetietokanta” Tunnistus: kuka puhuu tässä? University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Ongelma: puhujakohtainen vaihtelu University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Signaalivirran käsittely Kehys 2 Kehys 1 Kehys 3 . . . Kehys i . . . Päällekkäisyys Ikkunafunkio Spektrianalyysi Kehyksen pituus Piirreirrotus Piirrevektori xi University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM) University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujaprofiilin muodostuminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Mallien vertailu • Kahden puhujan vertailu: piirrejakaumien vertailu • Lasketaan diskreettien jakaumien etäisyyksiä Puhujan no. 1 piirrevektorit tunnistettava puhuja Puhujan no. 3 piirrevektorit Puhujan no. 2 piirrevektorit University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujien karsinta • Tehostaa tunnistusta reaaliaikasovelluksiin University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Piirrefuusio • Parantaa tunnistustarkkuutta University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Painotettu luokittelu • Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Hyviä” vektoreita puhujan #2 erotteluun ”Hyviä” vektoreita puhujan #1 erotteluun ”Huonoja” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Akustiikan vaikutus • • Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma Joensuussa tutkitaan myös sitä kuinka tästä voidaan päästään eroon Frekvenssi Päätösraja Petkuttajan piirrejakauma Todellisen puhujan piirrejakauma Laboratorio-oloissa nauhoitettu opetusaineisto Score Frekvenssi Hylätty Hyväksytty Petkuttajan piirrejakauma Todellisen henkilön piirrejaauma Meluisa käyttöympäristö Score Seuraus: kaikki puhujat hyväksytään! University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
PUMS-projektin tavoitteet • Totetuttaa tehokkaimmat puhujantunnistustekniikat – – – • Puhujaprofiilien hallinta sekä puhujantunnistus Signaali: kepstrit, Delta-kert, CMS, optimisuodinpankki Profiilitietokanta ja luokittelumenetelmät: VQ, GMM Toteutuksen siirto yhteistyötahojen sovellusalustoille – – PC-ohjelmisto: puhujaprofiilien hallinta ja tunnistus Matkapuhelimessa toimiva puhujantunnistus • Systemaattinen testaus eri käyttöoloissa ja laitteissa • Pitkällä aikavälillä uusia tehokkaampia menetelmiä – – – Eri piirteiden yhtaikainen käyttö (fuusio) Segmentoinnin hyödyntäminen: erotteleva piirreirrotus Optimaalisesti erottelevat opetus-ja tunnistusmenetelmät Kunnollinen luotettavuusestimaatti puhujanvarmennukseen Reaaliaikasovellukset University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Kehitettävät ohjelmistot • Profmatch – PC-ohjelmisto (ANSI-C konsoli) – Perusalgoritmit off-line tunnistukseen ja kehittyneempiä menetelmiä kuten piirrefuusio • Sprofiler – PC-ohjelmisto (ANSI-C konsoli), mikrofonituki – profiilitietokannan hallinta, on-line tunnistus – sisältää kehittyneempiä menetelmiä kuten karsinta • Uudet ohjelmat reaaliaikatunnistukseen – Windows, ”Sprofiler-yhteensopiva” – Symbian-matkapuhelimessa toimiva sovellus University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Symbian ja Series 60 • Vähän resursseja – muisti – laskentateho – Series 60 • Ei liukulaskentaa – laskenta-algoritmit muutettava fixedpoint-tyyppisiksi ja virheanalyysit tehtävä uudelleen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Application Concepts Top Entryof. Level the Line CLIENT Technology Components ID • =Media Identification technology, • UI consists of • FE • CLASS. : Speaker Modeling • Part of and Classification application • F. E. : Feature Extractor DB = Speaker Model Database U. I. = User Interface UI TCP/IP ID FE CLASS. DB Client small large University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Server