Puheteknologian tutkimus Joensuussa Pasi Frnti Tietojenksittelytieteen laitos Joensuun
- Slides: 31
Puheteknologian tutkimus Joensuussa Pasi Fränti Tietojenkäsittelytieteen laitos Joensuun yliopisto 8. 1. 2003 University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Joensuun yliopisto • • Perustettu 1969 2 kampusta: Joensuu, Savonlinna 6 tiedekuntaa, 9 muuta yksikköä Yhteensä 7200 opiskelijaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Tietojenkäsittelytiede • • 5 professoria, kokonaishenkilöstö 90 -100 29 FM-tutkintoa (v. 2002) 3 -5 Väitöskirjaa (2004 --) 80 uutta perusopiskelijaa ja 20 kansainvälistä maisteriopiskelijaa. • Ohjelmistosuunnittelijoiksi, erikoisalojen asiantuntijoiksi, tietotekniikan kouluttajiksi. University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Laitoksen kehitys University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Päätutkimusalat • Ohjelmistotuotanto • Opetusteknologia • Signaalinkäsittely – Spektrikuvat (In. Fotonics Center) – Hahmontunnistus – Kuva-analyysi – Data Mining – Puheteknologia University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Julkaisut University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puheteknologian tutkimus • Joensuussa yleisen kielitieteen ja tietojenkäsittelytieteen yhteistyötä • Kielitiede: perustutkimusta, fonetiikka, prosodia, synteesi, puhujantunnistus • TKT: puhetekniikan menetelmät – – Hahmontunnistusmenetelmät Datafuusio Automaattinen tunnistus, reaaliaikaisuus TKT: lla osaamista myös suomenkielisessä puheentunnistuksessa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Historia • SUOPUHE-projekti – Kielitiede mukana – Tulos: laadukas suomen puhesynteesi • TKT: lla yllättäviä tuloksia: – puhujantunnistus onnistuu automaattisilla menetelmillä, ilman lingvistiikkaa – Useita graduja: Kinnunen (’ 99), Kilpeläinen (’ 02), Karpov (’ 03), Pulkrabek (’ 03). – Väitöskirjatason tutkimusta: Kinnunen ja Karpov sekä muita sivuavista aiheista. University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Mistä puhe koostuu? • Sisältö: puhujan tarkoittama viesti • Puhujan ominaisuudet: ääntöväylä, puhetapa • Siirtoväylä: Puheympäristön akustiikka, sähköiset laitteet • Aikariippuvat puhujaparametrit: tunnetila, terveydentila • Kieli, murre University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Mitä on puhetekniikka? • • • Puhesynteesi Puheentunnistus Puhujan tunnetilan tunnistus Sovellukset – sähköpostinlukijat, puheohjaus, henkilövarmennus, rikostutkinta, näkö- ja kuulovammaisten palvelut University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhesignaalin analyysi • Yleisesti käytetty menetelmä: – digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä – spektrien käyttö riippuu sovelluksesta – usein spektriä jalostetaan edelleen helpommin numeerisesti analysoitavaksi • Muitakin menetelmiä on: – suodatus ja analyysi aika-alueessa – perustaajuuden ja formanttien mallintaminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujantunnistus • Mallinnetaan puhujan ominaisuudet – signaalista etsitään ja mallinnetaan puhujia erottelevia ominaisuuksia – muut ominaisuudet sivuseikka • Mallin avulla päätellään kuka puhui – puhujantunnistus – puhujanvarmennus • Opetusaineisto: puhenäytteitä puhujilta joita halutaan tunnistaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujantunnistus: pääpiirteet Mallin luonti . . . Piirreirrotus Puhujatietokanta Opetus Puhuja N Puhuja 1 Piirreirrotus Hahmontunnistus ? Tunnistus Päätöslogiikka Tunnistustulos / Varmennustulos University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Esimerkki: Spektrit “Puhetietokanta” Tunnistus: kuka puhuu tässä? University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Ongelma: puhujakohtainen vaihtelu University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Signaalivirran käsittely Kehys 2 Kehys 1 Kehys 3 . . . Kehys i . . . Päällekkäisyys Ikkunafunkio Spektrianalyysi Kehyksen pituus Piirreirrotus Piirrevektori xi University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM) University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujaprofiilin muodostuminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Mallien vertailu • Kahden puhujan vertailu: piirrejakaumien vertailu • Lasketaan diskreettien jakaumien etäisyyksiä Puhujan no. 1 piirrevektorit tunnistettava puhuja Puhujan no. 3 piirrevektorit Puhujan no. 2 piirrevektorit University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Painotettu luokittelu • Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Hyviä” vektoreita puhujan #2 erotteluun ”Hyviä” vektoreita puhujan #1 erotteluun ”Huonoja” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puhujien karsinta • Tehostaa tunnistusta reaaliaikasovelluksiin University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Piirrefuusio • Parantaa tunnistustarkkuutta University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Akustiikan vaikutus • • Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma Joensuussa tutkitaan kuinka tästä voidaan päästään eroon Frekvenssi Päätösraja Petkuttajan piirrejakauma Todellisen puhujan piirrejakauma Laboratorio-oloissa nauhoitettu opetusaineisto Score Frekvenssi Hylätty Hyväksytty Petkuttajan piirrejakauma Todellisen henkilön piirrejaauma Meluisa käyttöympäristö Score Seuraus: kaikki puhujat hyväksytään! University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Puheentunnistus • Mallinnetaan puheen sisältö – Samat spektripohjaiset signaalinkäsittelyn menetelmät kuin puhujantunnistuksessa. – Spektrien luokittelu Markov-ketjun tiloihin sanoina tai äänteinä (monofoni tai trifoni) – Tarvitaan kielimalli, joka rajoittaa tilasiirtymiä • Opetusaineisto: paljon puhetta – vähintään sana-annotointi – paljon puhujia => puhujariippumaton puheentunnistin – vähän puhujia => puhujariippuva tunnistin University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
PUMS-projekti Puhetekniikan Uudet Menetelmät ja Sovellukset (2003 -2006) • Tekes-projekti, jossa useita yritys- ja yhteisöosapuolia, korkeakouluista TTY, TKK, Ta. Y, HY, Jo. Y, sekä VTT. • 1. vuosi: Joensuussa kaksi henkilötyövuotta puhujantunnistukseen. • On-line tunnistus (Nokia, Lingsoft) 1, 5 v. • Off-line tunnistus (Prof. Match) 0, 5 v. • http: //cs. joensuu. fi/pages/pums/ University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Projektin tavoitteet • Totetuttaa tehokkaimmat puhujantunnistustekniikat – – – • Puhujaprofiilien hallinta sekä puhujantunnistus Signaali: kepstrit, Delta-kert, CMS, optimisuodinpankki Profiilitietokanta ja luokittelumenetelmät: VQ, GMM Toteutuksen siirto yhteistyötahojen sovellusalustoille – – PC-ohjelmisto: puhujaprofiilien hallinta ja tunnistus Matkapuhelimessa toimiva puhujantunnistus • Systemaattinen testaus eri käyttöoloissa ja laitteissa • Pitkällä aikavälillä uusia tehokkaampia menetelmiä – – – Eri piirteiden yhtaikainen käyttö (fuusio) Segmentoinnin hyödyntäminen: erotteleva piirreirrotus Optimaalisesti erottelevat opetus-ja tunnistusmenetelmät Kunnollinen luotettavuusestimaatti puhujanvarmennukseen Reaaliaikasovellukset University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Tutkimusryhmä Pasi Fränti Juhani Saastamoinen Evgeny Karpov University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Ville Hautamäki Tomi Kinnunen Ismo Kärkkäinen
Kehitettävät ohjelmistot • Profmatch – PC-ohjelmisto (ANSI-C konsoli) – Perusalgoritmit off-line tunnistukseen ja kehittyneempiä menetelmiä kuten piirrefuusio • Sprofiler – PC-ohjelmisto (ANSI-C konsoli), mikrofonituki – profiilitietokannan hallinta, on-line tunnistus – sisältää kehittyneempiä menetelmiä kuten karsinta • Uudet ohjelmat reaaliaikatunnistukseen – Windows, ”Sprofiler-yhteensopiva” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Application Concepts Top Entryof. Level the Line CLIENT Technology Components ID • =Media Identification technology, • UI consists of • FE • CLASS. : Speaker Modeling • Part of and Classification application • F. E. : Feature Extractor DB = Speaker Model Database U. I. = User Interface UI TCP/IP SERVER • Speaker Modeling and Classification • Speaker Database • Part of application ID FE CLASS. DB Client small large University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Server
Mahdollisuudet ja haasteet • Puhujantunnistuksen teknologiasiirto PUMS-projektin puitteissa. • Periaatteessa muut tunnistustehtävät: puhujaryhmä, mielentila, kulttuuritausta, akustinen tausta • Puheentunnistus – Osaamispohja löytyy – Samat signaalinkäsittelymenetelmät – Rajoittuminen suomenkieleen helpottaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
Yhteystiedot Email: Web: pasi. franti@joensuu. fi juhani. saastamoinen@joensuu. fi http: //cs. joensuu. fi/pages/pums/ University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi
- Joensuun keskussairaala kartta
- Kvanttielektrodynamiikka
- Autoimmuunigastriitti
- Tutkimusasetelma
- Sanojen alkuperän tutkimus
- Morbus cordis coronarius
- Kiintiöotanta
- Kvalitatiivinen tutkimus
- Sosiaalipsykologia tutkimus
- Laadullisen tutkimuksen erityispiirteet
- Pertti jokivuori
- Laadullinen tutkimus alasuutari
- Kvantitatiivinen tutkimus menetelmät
- Viivakoe
- Konstruktiivinen tutkimusote liiketaloustieteessä
- Kvantitatiivisen tutkimuksen luotettavuus
- Sähköpostihaastattelu
- Kokeellinen tutkimus
- Frnti
- Pasi hongisto
- Frnti
- Frnti
- Tsp
- Frnti
- Frnti
- Pasi fränti
- Cluster validation techniques
- Frnti
- Frnti
- Frnti
- Frnti
- Frnti