Puheteknologian tutkimus Joensuussa Pasi Frnti Tietojenksittelytieteen laitos Joensuun

  • Slides: 31
Download presentation
Puheteknologian tutkimus Joensuussa Pasi Fränti Tietojenkäsittelytieteen laitos Joensuun yliopisto 8. 1. 2003 University of

Puheteknologian tutkimus Joensuussa Pasi Fränti Tietojenkäsittelytieteen laitos Joensuun yliopisto 8. 1. 2003 University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Joensuun yliopisto • • Perustettu 1969 2 kampusta: Joensuu, Savonlinna 6 tiedekuntaa, 9 muuta

Joensuun yliopisto • • Perustettu 1969 2 kampusta: Joensuu, Savonlinna 6 tiedekuntaa, 9 muuta yksikköä Yhteensä 7200 opiskelijaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Tietojenkäsittelytiede • • 5 professoria, kokonaishenkilöstö 90 -100 29 FM-tutkintoa (v. 2002) 3 -5

Tietojenkäsittelytiede • • 5 professoria, kokonaishenkilöstö 90 -100 29 FM-tutkintoa (v. 2002) 3 -5 Väitöskirjaa (2004 --) 80 uutta perusopiskelijaa ja 20 kansainvälistä maisteriopiskelijaa. • Ohjelmistosuunnittelijoiksi, erikoisalojen asiantuntijoiksi, tietotekniikan kouluttajiksi. University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Laitoksen kehitys University of Joensuu Dept. of Computer Science P. O. Box 111 FIN-

Laitoksen kehitys University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Päätutkimusalat • Ohjelmistotuotanto • Opetusteknologia • Signaalinkäsittely – Spektrikuvat (In. Fotonics Center) – Hahmontunnistus

Päätutkimusalat • Ohjelmistotuotanto • Opetusteknologia • Signaalinkäsittely – Spektrikuvat (In. Fotonics Center) – Hahmontunnistus – Kuva-analyysi – Data Mining – Puheteknologia University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Julkaisut University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101

Julkaisut University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puheteknologian tutkimus • Joensuussa yleisen kielitieteen ja tietojenkäsittelytieteen yhteistyötä • Kielitiede: perustutkimusta, fonetiikka, prosodia,

Puheteknologian tutkimus • Joensuussa yleisen kielitieteen ja tietojenkäsittelytieteen yhteistyötä • Kielitiede: perustutkimusta, fonetiikka, prosodia, synteesi, puhujantunnistus • TKT: puhetekniikan menetelmät – – Hahmontunnistusmenetelmät Datafuusio Automaattinen tunnistus, reaaliaikaisuus TKT: lla osaamista myös suomenkielisessä puheentunnistuksessa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Historia • SUOPUHE-projekti – Kielitiede mukana – Tulos: laadukas suomen puhesynteesi • TKT: lla

Historia • SUOPUHE-projekti – Kielitiede mukana – Tulos: laadukas suomen puhesynteesi • TKT: lla yllättäviä tuloksia: – puhujantunnistus onnistuu automaattisilla menetelmillä, ilman lingvistiikkaa – Useita graduja: Kinnunen (’ 99), Kilpeläinen (’ 02), Karpov (’ 03), Pulkrabek (’ 03). – Väitöskirjatason tutkimusta: Kinnunen ja Karpov sekä muita sivuavista aiheista. University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Mistä puhe koostuu? • Sisältö: puhujan tarkoittama viesti • Puhujan ominaisuudet: ääntöväylä, puhetapa •

Mistä puhe koostuu? • Sisältö: puhujan tarkoittama viesti • Puhujan ominaisuudet: ääntöväylä, puhetapa • Siirtoväylä: Puheympäristön akustiikka, sähköiset laitteet • Aikariippuvat puhujaparametrit: tunnetila, terveydentila • Kieli, murre University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Mitä on puhetekniikka? • • • Puhesynteesi Puheentunnistus Puhujan tunnetilan tunnistus Sovellukset – sähköpostinlukijat,

Mitä on puhetekniikka? • • • Puhesynteesi Puheentunnistus Puhujan tunnetilan tunnistus Sovellukset – sähköpostinlukijat, puheohjaus, henkilövarmennus, rikostutkinta, näkö- ja kuulovammaisten palvelut University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhesignaalin analyysi • Yleisesti käytetty menetelmä: – digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä –

Puhesignaalin analyysi • Yleisesti käytetty menetelmä: – digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä – spektrien käyttö riippuu sovelluksesta – usein spektriä jalostetaan edelleen helpommin numeerisesti analysoitavaksi • Muitakin menetelmiä on: – suodatus ja analyysi aika-alueessa – perustaajuuden ja formanttien mallintaminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujantunnistus • Mallinnetaan puhujan ominaisuudet – signaalista etsitään ja mallinnetaan puhujia erottelevia ominaisuuksia –

Puhujantunnistus • Mallinnetaan puhujan ominaisuudet – signaalista etsitään ja mallinnetaan puhujia erottelevia ominaisuuksia – muut ominaisuudet sivuseikka • Mallin avulla päätellään kuka puhui – puhujantunnistus – puhujanvarmennus • Opetusaineisto: puhenäytteitä puhujilta joita halutaan tunnistaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujantunnistus: pääpiirteet Mallin luonti . . . Piirreirrotus Puhujatietokanta Opetus Puhuja N Puhuja 1

Puhujantunnistus: pääpiirteet Mallin luonti . . . Piirreirrotus Puhujatietokanta Opetus Puhuja N Puhuja 1 Piirreirrotus Hahmontunnistus ? Tunnistus Päätöslogiikka Tunnistustulos / Varmennustulos University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Esimerkki: Spektrit “Puhetietokanta” Tunnistus: kuka puhuu tässä? University of Joensuu Dept. of Computer Science

Esimerkki: Spektrit “Puhetietokanta” Tunnistus: kuka puhuu tässä? University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Ongelma: puhujakohtainen vaihtelu University of Joensuu Dept. of Computer Science P. O. Box 111

Ongelma: puhujakohtainen vaihtelu University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Signaalivirran käsittely Kehys 2 Kehys 1 Kehys 3 . . . Kehys i .

Signaalivirran käsittely Kehys 2 Kehys 1 Kehys 3 . . . Kehys i . . . Päällekkäisyys Ikkunafunkio Spektrianalyysi Kehyksen pituus Piirreirrotus Piirrevektori xi University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM) University of Joensuu Dept. of Computer Science

Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM) University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujaprofiilin muodostuminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN-

Puhujaprofiilin muodostuminen University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Mallien vertailu • Kahden puhujan vertailu: piirrejakaumien vertailu • Lasketaan diskreettien jakaumien etäisyyksiä Puhujan

Mallien vertailu • Kahden puhujan vertailu: piirrejakaumien vertailu • Lasketaan diskreettien jakaumien etäisyyksiä Puhujan no. 1 piirrevektorit tunnistettava puhuja Puhujan no. 3 piirrevektorit Puhujan no. 2 piirrevektorit University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Painotettu luokittelu • Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Hyviä” vektoreita puhujan #2 erotteluun

Painotettu luokittelu • Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Hyviä” vektoreita puhujan #2 erotteluun ”Hyviä” vektoreita puhujan #1 erotteluun ”Huonoja” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puhujien karsinta • Tehostaa tunnistusta reaaliaikasovelluksiin University of Joensuu Dept. of Computer Science P.

Puhujien karsinta • Tehostaa tunnistusta reaaliaikasovelluksiin University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Piirrefuusio • Parantaa tunnistustarkkuutta University of Joensuu Dept. of Computer Science P. O. Box

Piirrefuusio • Parantaa tunnistustarkkuutta University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Akustiikan vaikutus • • Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma Joensuussa tutkitaan kuinka tästä

Akustiikan vaikutus • • Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma Joensuussa tutkitaan kuinka tästä voidaan päästään eroon Frekvenssi Päätösraja Petkuttajan piirrejakauma Todellisen puhujan piirrejakauma Laboratorio-oloissa nauhoitettu opetusaineisto Score Frekvenssi Hylätty Hyväksytty Petkuttajan piirrejakauma Todellisen henkilön piirrejaauma Meluisa käyttöympäristö Score Seuraus: kaikki puhujat hyväksytään! University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Puheentunnistus • Mallinnetaan puheen sisältö – Samat spektripohjaiset signaalinkäsittelyn menetelmät kuin puhujantunnistuksessa. – Spektrien

Puheentunnistus • Mallinnetaan puheen sisältö – Samat spektripohjaiset signaalinkäsittelyn menetelmät kuin puhujantunnistuksessa. – Spektrien luokittelu Markov-ketjun tiloihin sanoina tai äänteinä (monofoni tai trifoni) – Tarvitaan kielimalli, joka rajoittaa tilasiirtymiä • Opetusaineisto: paljon puhetta – vähintään sana-annotointi – paljon puhujia => puhujariippumaton puheentunnistin – vähän puhujia => puhujariippuva tunnistin University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

PUMS-projekti Puhetekniikan Uudet Menetelmät ja Sovellukset (2003 -2006) • Tekes-projekti, jossa useita yritys- ja

PUMS-projekti Puhetekniikan Uudet Menetelmät ja Sovellukset (2003 -2006) • Tekes-projekti, jossa useita yritys- ja yhteisöosapuolia, korkeakouluista TTY, TKK, Ta. Y, HY, Jo. Y, sekä VTT. • 1. vuosi: Joensuussa kaksi henkilötyövuotta puhujantunnistukseen. • On-line tunnistus (Nokia, Lingsoft) 1, 5 v. • Off-line tunnistus (Prof. Match) 0, 5 v. • http: //cs. joensuu. fi/pages/pums/ University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Projektin tavoitteet • Totetuttaa tehokkaimmat puhujantunnistustekniikat – – – • Puhujaprofiilien hallinta sekä puhujantunnistus

Projektin tavoitteet • Totetuttaa tehokkaimmat puhujantunnistustekniikat – – – • Puhujaprofiilien hallinta sekä puhujantunnistus Signaali: kepstrit, Delta-kert, CMS, optimisuodinpankki Profiilitietokanta ja luokittelumenetelmät: VQ, GMM Toteutuksen siirto yhteistyötahojen sovellusalustoille – – PC-ohjelmisto: puhujaprofiilien hallinta ja tunnistus Matkapuhelimessa toimiva puhujantunnistus • Systemaattinen testaus eri käyttöoloissa ja laitteissa • Pitkällä aikavälillä uusia tehokkaampia menetelmiä – – – Eri piirteiden yhtaikainen käyttö (fuusio) Segmentoinnin hyödyntäminen: erotteleva piirreirrotus Optimaalisesti erottelevat opetus-ja tunnistusmenetelmät Kunnollinen luotettavuusestimaatti puhujanvarmennukseen Reaaliaikasovellukset University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Tutkimusryhmä Pasi Fränti Juhani Saastamoinen Evgeny Karpov University of Joensuu Dept. of Computer Science

Tutkimusryhmä Pasi Fränti Juhani Saastamoinen Evgeny Karpov University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Ville Hautamäki Tomi Kinnunen Ismo Kärkkäinen

Kehitettävät ohjelmistot • Profmatch – PC-ohjelmisto (ANSI-C konsoli) – Perusalgoritmit off-line tunnistukseen ja kehittyneempiä

Kehitettävät ohjelmistot • Profmatch – PC-ohjelmisto (ANSI-C konsoli) – Perusalgoritmit off-line tunnistukseen ja kehittyneempiä menetelmiä kuten piirrefuusio • Sprofiler – PC-ohjelmisto (ANSI-C konsoli), mikrofonituki – profiilitietokannan hallinta, on-line tunnistus – sisältää kehittyneempiä menetelmiä kuten karsinta • Uudet ohjelmat reaaliaikatunnistukseen – Windows, ”Sprofiler-yhteensopiva” University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Application Concepts Top Entryof. Level the Line CLIENT Technology Components ID • =Media Identification

Application Concepts Top Entryof. Level the Line CLIENT Technology Components ID • =Media Identification technology, • UI consists of • FE • CLASS. : Speaker Modeling • Part of and Classification application • F. E. : Feature Extractor DB = Speaker Model Database U. I. = User Interface UI TCP/IP SERVER • Speaker Modeling and Classification • Speaker Database • Part of application ID FE CLASS. DB Client small large University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi Server

Mahdollisuudet ja haasteet • Puhujantunnistuksen teknologiasiirto PUMS-projektin puitteissa. • Periaatteessa muut tunnistustehtävät: puhujaryhmä, mielentila,

Mahdollisuudet ja haasteet • Puhujantunnistuksen teknologiasiirto PUMS-projektin puitteissa. • Periaatteessa muut tunnistustehtävät: puhujaryhmä, mielentila, kulttuuritausta, akustinen tausta • Puheentunnistus – Osaamispohja löytyy – Samat signaalinkäsittelymenetelmät – Rajoittuminen suomenkieleen helpottaa University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi

Yhteystiedot Email: Web: pasi. franti@joensuu. fi juhani. saastamoinen@joensuu. fi http: //cs. joensuu. fi/pages/pums/ University

Yhteystiedot Email: Web: pasi. franti@joensuu. fi juhani. saastamoinen@joensuu. fi http: //cs. joensuu. fi/pages/pums/ University of Joensuu Dept. of Computer Science P. O. Box 111 FIN- 80101 Joensuu Tel. +358 13 251 7959 fax +358 13 251 7955 www. cs. joensuu. fi