Kieliteknologia Helena AhonenMyka 21 10 2002 Sisllys n

  • Slides: 48
Download presentation
Kieliteknologia Helena Ahonen-Myka 21. 10. 2002

Kieliteknologia Helena Ahonen-Myka 21. 10. 2002

Sisällys n n Mitä on kieliteknologia? Kielitieteen osa-alueita Kieliteknologiaan liittyvää tutkimusta TKTL: llä Kieliteknologian

Sisällys n n Mitä on kieliteknologia? Kielitieteen osa-alueita Kieliteknologiaan liittyvää tutkimusta TKTL: llä Kieliteknologian opiskelu

Mitä on kieliteknologia? n Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen käsittelyä varten.

Mitä on kieliteknologia? n Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen käsittelyä varten.

Kieliteknologian sovelluksia n n n luonnollisen kielen käyttöliittymissä puheentunnistus ja puhesynteesi tekstimuotoisen tiedon hallinta,

Kieliteknologian sovelluksia n n n luonnollisen kielen käyttöliittymissä puheentunnistus ja puhesynteesi tekstimuotoisen tiedon hallinta, tiedonhaku, tiivistelmien tuottaminen kielenkääntämisen tuki teknologia-avusteinen kielenoppiminen kirjoittajan apuvälineet

Kielitieteen osa-alueita n n n fonetiikka fonologia morfologia syntaksi semantiikka pragmatiikka

Kielitieteen osa-alueita n n n fonetiikka fonologia morfologia syntaksi semantiikka pragmatiikka

Fonetiikka n n n tutkitaan puheen tuottamista ja havaitsemista perusyksikkö: äänne (fooni) kieliteknologiasovellukset: automaattinen

Fonetiikka n n n tutkitaan puheen tuottamista ja havaitsemista perusyksikkö: äänne (fooni) kieliteknologiasovellukset: automaattinen puheentunnistus ja tuottaminen n n esim. käyttöliittymissä HY: fonetiikan laitos

Fonologia n n äänneaineksen selvittäminen kielen rakenteen kannalta perusyksikkö: foneemi esim. [p l s

Fonologia n n äänneaineksen selvittäminen kielen rakenteen kannalta perusyksikkö: foneemi esim. [p l s m j] ovat eri foneemeja suomenkielessä, koska puu - luu - suu - muu - juu eroavat merkitykseltään toisaalta erilaiset r-äänteet ovat saman foneemin muunnelmia: Ranska, harava, . . .

Morfologia n ”sanojen” sisäinen rakenne n n sanan osalla jokin merkitys tai kieliopillinen tehtävä

Morfologia n ”sanojen” sisäinen rakenne n n sanan osalla jokin merkitys tai kieliopillinen tehtävä perusyksikkö: morfeemi n n vapaat morfeemit (kirja, punainen, …) taivutusmorfeemit n n sija-, luku-, persoona-, aikamuoto-, . . . päätteet johdinmorfeemit n n rakenteelliset (-minen: verbi->substantiivi) merkitystä modifioivat (näyttä+mö, teurasta+ja)

Morfologia n automaattinen morfologinen analyysi n n n morfeemien tunnistaminen ja tulkinta sanaluokkien määrittely

Morfologia n automaattinen morfologinen analyysi n n n morfeemien tunnistaminen ja tulkinta sanaluokkien määrittely perusmuotoon palautus taivutusmuotojen/sananvartaloiden generointi analyysin tulos esim. rikoslain ongelma: moniselitteisyys n rikoslaki N Gen Sg esim. ’alusta’ (alku, alustaa, alus, …)

Morfologia n Etsi kaikki dokumentit, joissa esiintyy sana n ’vesi’ n n ”Monet kalat

Morfologia n Etsi kaikki dokumentit, joissa esiintyy sana n ’vesi’ n n ”Monet kalat viihtyvät kylmässä vedessä. ” ’cat’ (tai ’cat*’) n ”Cats don’t like dogs. ”

Syntaksi n n n ~lauseenjäsennys lauseiden rakenneosat, niiden suhteet ja roolit (subjekti, objekti, .

Syntaksi n n n ~lauseenjäsennys lauseiden rakenneosat, niiden suhteet ja roolit (subjekti, objekti, . . . ) syntaksi voi ratkaista moniselitteisyyksiä morfologisessa analyysissä n ”Alusta oli vakaa. ”

Semantiikka n merkitysten ja niiden rakenteiden tutkimus kielellisistä lähtökohdista käsin n n mm. miten

Semantiikka n merkitysten ja niiden rakenteiden tutkimus kielellisistä lähtökohdista käsin n n mm. miten lauseiden merkitys kootaan sanojen merkityksestä automaattisessa kielen käsittelyssä käytettävissä mm. n n tesaurukset: synonyymit, ala- ja yläkäsitteet, … ontologiat: käsitehierarkiat/verkot, ”maailman mallit”, käsitteiden erilaiset suhteet

Pragmatiikka n n kielen käytön säännöt puhujien käytännön tieto maailmasta ja siitä, mikä on

Pragmatiikka n n kielen käytön säännöt puhujien käytännön tieto maailmasta ja siitä, mikä on mahdollista ”Violetit ideat nukkuvat rajusti. ” vertaa: n n n ”Onks sulla tulta? ” ”Onks sulla auto? ” ”Onks sulla oma asunto? ”

TKTL: n tutkimusta: DOREMI-ryhmä n n n n n Helena Ahonen-Myka Greger Lindén Marko

TKTL: n tutkimusta: DOREMI-ryhmä n n n n n Helena Ahonen-Myka Greger Lindén Marko Salmenkivi Oskari Heinonen Juha Makkonen Jussi Piitulainen Kaisa Kostiainen Lili Aunimo Miro Lehtonen n n n Reeta Kuuskoski Antoine Doucet Martin Fluch Andrei Popescu Renaud Petit Otso Virtanen

TKTL: n tutkimusta: TYTTI n TYTTI - Tietotyöläisen työasema n n tiedonhaun tuki, esim.

TKTL: n tutkimusta: TYTTI n TYTTI - Tietotyöläisen työasema n n tiedonhaun tuki, esim. uutistapahtuman seuraaminen rahoitus: n TEKES, Alma Media, WSOY, Vaisala, Nokia Networks, Lingsoft

Tietovirtojen suodattaminen n n Sama informaatio tulee monesta lähteestä (esim. sanomalehdelle 30 uutistoimistosta) vanhaa

Tietovirtojen suodattaminen n n Sama informaatio tulee monesta lähteestä (esim. sanomalehdelle 30 uutistoimistosta) vanhaa informaatiota toistetaan useaan kertaan ajan kuluessa (esim. onnettomuuden perustiedot)

Tietovirtojen suodattaminen n n Tavoite: ohjelmisto, jonka avulla käyttäjä voi helposti seurata haluamaansa aihetta

Tietovirtojen suodattaminen n n Tavoite: ohjelmisto, jonka avulla käyttäjä voi helposti seurata haluamaansa aihetta päällekkäisen informaation määrä minimoidaan: ensimmäinen uutinen näytetään kokonaan, seuraavista vain eroavat osat

Esimerkki n ”Käsiaseella myyjää uhannut pipomies ryösti Valintatalon sulkemisaikaan kello 21 Meripihkantiellä Helsingin Pihlajamäessä

Esimerkki n ”Käsiaseella myyjää uhannut pipomies ryösti Valintatalon sulkemisaikaan kello 21 Meripihkantiellä Helsingin Pihlajamäessä torstai-iltana. ”

Tutkimusongelmia n n n dokumentin aihepiiri täytyy määritellä, kuvaako dokumentti jotain uutta aihetta/tapahtumaa, vai

Tutkimusongelmia n n n dokumentin aihepiiri täytyy määritellä, kuvaako dokumentti jotain uutta aihetta/tapahtumaa, vai täytyykö tutkia sen suhdetta aikaisempiin dokumentteihin jos dokumentti ei kuvaa uutta tapahtumaa, on löydettävä aikaisemmat tapahtumaan liittyvät dokumentit

Tutkimusongelmia n eristetään nimiä, paikan ja ajan ilmauksia, teknisiä termejä yms. kuvaajiksi n n

Tutkimusongelmia n eristetään nimiä, paikan ja ajan ilmauksia, teknisiä termejä yms. kuvaajiksi n n kuvaaja: joukko nimiä + joukko paikan ilmauksia + joukko ajan ilmauksia + muita ”tärkeitä” sanoja verrataan uuden dokumentin kuvaajaa vanhoihin n n esim. paljonko kahdessa dokumentissa on yhteisiä paikannimiä/erisnimiä? Ovatko dokumenttien kuvaamat aikajaksot päällekkäisiä? on keksittävä joku tapa mitata samanlaisuutta

Kieliteknologia-apuvälineitä n Apuvälineitä kieliteknologiasta: sanojen perusmuotoon palautus, sanaluokkatieto, erisnimien ja termien eristäminen n voidaan

Kieliteknologia-apuvälineitä n Apuvälineitä kieliteknologiasta: sanojen perusmuotoon palautus, sanaluokkatieto, erisnimien ja termien eristäminen n voidaan käyttää tekstin esikäsittelyssä, ennen kuin poimitaan sanoja dokumenttien kuvaajiin

TKTL: n tutkimusta: APPA n n Kysymyksiin vastaava järjestelmä esim. asiakaspalvelua varten rahoitus: n

TKTL: n tutkimusta: APPA n n Kysymyksiin vastaava järjestelmä esim. asiakaspalvelua varten rahoitus: n Sonera

Kysymyksiin vastaava järjestelmä n Kaasulaitoksen asiakaspalveluun tulee kysymyksiä: n n Paljonko kaasu maksaa ensi

Kysymyksiin vastaava järjestelmä n Kaasulaitoksen asiakaspalveluun tulee kysymyksiä: n n Paljonko kaasu maksaa ensi vuonna? Mitä kaasuliesiä teillä on myynnissä? Minulla on ABC Super –kaasuliesi, joka on alkanut pitää omituista ääntä. Pitääkö sitä huoltaa? Olen lähdössä matkoille puoleksi vuodeksi. Miten voin keskeyttää sopimukseni siksi aikaa?

Kysymyksiin vastaava järjestelmä n n n Asiakkailta tulee paljon kysymyksiä, sähköpostina ja tekstiviesteinä samanlaiset

Kysymyksiin vastaava järjestelmä n n n Asiakkailta tulee paljon kysymyksiä, sähköpostina ja tekstiviesteinä samanlaiset kysymykset toistuvat kysymyksiin pitäisi vastata nopeasti Voisiko vanhoja kysymyksiä ja vastauksia hyödyntää? ratkaisu: kysymyksiin vastaava järjestelmä (asiantuntijan tueksi)

Tutkimusongelmia n Kysymysten analysointi n n n eristetään informaatiota kysymyksestä: kysymyssana, erisnimet (ihmisten, yritysten,

Tutkimusongelmia n Kysymysten analysointi n n n eristetään informaatiota kysymyksestä: kysymyssana, erisnimet (ihmisten, yritysten, tuotteiden), ajan ja paikan ilmauksia, muita tärkeitä termejä, . . . lauseita voidaan jäsentää merkityksen selvittämiseksi ongelma: teksti usein puhekielistä ja ”virheellistä”

Tutkimusongelmia n Vastauksen löytäminen n kysymykset luokitellaan aiheen mukaisiin kategorioihin (eristetyn informaation perusteella) valitaan

Tutkimusongelmia n Vastauksen löytäminen n kysymykset luokitellaan aiheen mukaisiin kategorioihin (eristetyn informaation perusteella) valitaan talletetuista kysymys-vastaus -pareista ne, jotka ovat annetussa kategoriassa kaikkein samanlaisimpia kuin ko. uusi kysymys samanlaisuus täytyy määritellä!

Tutkimusongelmia n Vastauksen koostaminen n vastausehdokkaat näytetään asiakaspalveluhenkilölle tarkastusta varten lopullinen vastaus muodostetaan valitusta

Tutkimusongelmia n Vastauksen koostaminen n vastausehdokkaat näytetään asiakaspalveluhenkilölle tarkastusta varten lopullinen vastaus muodostetaan valitusta vastauksesta ja mahdollisista kiinteistä osista (esim. tervehdykset, yhteystiedot, päiväys) vastaus lähetetään asiakkaalle; kysymys ja vastaus talletetaan

TKTL: n tutkimusta: Tekstin louhinta n n n Yleisten fraasien etsiminen tekstistä rahoitus: Suomen

TKTL: n tutkimusta: Tekstin louhinta n n n Yleisten fraasien etsiminen tekstistä rahoitus: Suomen Akatemia yhteistyötä Caenin yliopiston kanssa (Ranska)

Yleisten fraasien etsintä n n Etsitään kaikki sellaiset sanajonot (eli fraasit), jotka esiintyvät vähintään

Yleisten fraasien etsintä n n Etsitään kaikki sellaiset sanajonot (eli fraasit), jotka esiintyvät vähintään k kertaa tekstissä (esim. vähintään 10 kertaa) etsitään vain maksimaalisen pitkät sanojen välissä tekstissä voi esiintyä muutama muu sana fraasit voivat olla miten pitkiä tahansa

Esimerkki fraaseista n Dokumenteista löytyvät pätkät: n n n … Suomen pääministeri Paavo Lipponen

Esimerkki fraaseista n Dokumenteista löytyvät pätkät: n n n … Suomen pääministeri Paavo Lipponen tapasi Tukholmassa. . . … pääministeri Lipponen keskusteli Tukholmassa … näistä tekstipätkistä löydettäisiin fraasi ‘pääministeri Lipponen Tukholmassa’

Helsingin yliopiston rehtori Kari Raivio n n n n Helsingin yliopiston Helsingin rehtori Helsingin

Helsingin yliopiston rehtori Kari Raivio n n n n Helsingin yliopiston Helsingin rehtori Helsingin Kari yliopiston rehtori yliopiston Kari rehtori Raivio yliopiston rehtori Raivio Helsingin Kari Raivio. . .

Sovellusmahdollisuuksia n Fraasit dokumenttien kuvaajina n n edellä: dokumentin kuvaajana on käytetty joukkoa dokumentin

Sovellusmahdollisuuksia n Fraasit dokumenttien kuvaajina n n edellä: dokumentin kuvaajana on käytetty joukkoa dokumentin sanoja tms. joukkoon voitaisiin lisätä fraaseja Asteittain tarkentuva tiedonhaku Kielen rakenteiden tutkimus

Asteittain tarkentuva tiedonhaku n n Ongelma: ihmiset haluavat tehdä lyhyitä ja yksinkertaisia kyselyjä (1

Asteittain tarkentuva tiedonhaku n n Ongelma: ihmiset haluavat tehdä lyhyitä ja yksinkertaisia kyselyjä (1 -2 sanaa) tuloksena voi olla paljon merkityksettömiä dokumentteja ongelma varsinkin pienillä näytöillä ratkaisu: tarjotaan välitasoja

Välitasoja n n fraaseja lauseita tekstikappaleita tiivistelmiä

Välitasoja n n fraaseja lauseita tekstikappaleita tiivistelmiä

Agricultur* n n n agricultural exports agricultural products agricultural subsidies u. s. agriculture european

Agricultur* n n n agricultural exports agricultural products agricultural subsidies u. s. agriculture european community agriculture. . .

Lause/tekstikappale n Paye stressed the need for a progressive and joint reduction of agricultural

Lause/tekstikappale n Paye stressed the need for a progressive and joint reduction of agricultural subsidies as well as social measures to help farmers in unprofitable areas.

Kielen rakenteiden tutkimus: sanan ympäristö n n … that things weren’t right between us

Kielen rakenteiden tutkimus: sanan ympäristö n n … that things weren’t right between us Is that the right time? Stay right here. They had the right to strike.

Kielen rakenteiden tutkimus: sanan ympäristö n They had the right to strike. n n

Kielen rakenteiden tutkimus: sanan ympäristö n They had the right to strike. n n n <they, Pronoun, plural, 3> <had, Verb, imperfect, singular, 3> <the, Determiner> <right, Noun, singular> <to, Preposition> <strike, Verb, infinitive>

Kielen rakenteiden tutkimus: yleistys n n be right between ’Pronoun’ the right ’Noun’ ’Verb’

Kielen rakenteiden tutkimus: yleistys n n be right between ’Pronoun’ the right ’Noun’ ’Verb’ right here the right to ’Verb’ n n hahmo yleistää tapauksia: the right to strike, the right to vote, … Tätä ei vielä (oikein) osata tehdä!

Miten tutkimusta tehdään? n n n Tutkimusongelma löytyy usein jostakin käytännön ongelmasta käytännön ongelma

Miten tutkimusta tehdään? n n n Tutkimusongelma löytyy usein jostakin käytännön ongelmasta käytännön ongelma jaetaan useiksi teoreettisiksi ongelmiksi haetaan perusmenetelmiä eri aloilta pohjaksi ja kehitetään ratkaisuja n n n samalla löytyy myös uusia teoreettisia ongelmia rakennetaan prototyyppejä testataan todellisilla dokumenttikokoelmilla

Mihin tämä tutkimusalue sijoittuu? n n Informaatiojärjestelmien erikoistumislinja hyödynnetään tietokantateoriaa, tekoälymenetelmiä (mm. koneoppiminen), tiedon

Mihin tämä tutkimusalue sijoittuu? n n Informaatiojärjestelmien erikoistumislinja hyödynnetään tietokantateoriaa, tekoälymenetelmiä (mm. koneoppiminen), tiedon louhintaa ja analyysiä, tiedonhakumenetelmiä, merkkijonomenetelmiä, kielitiedettä, tilastotiedettä

Mitä tarvitaan? n n algoritmeja perustietorakenteet, esim. puut ja niiden läpikäyntialgoritmit äärelliset automaatit, säännölliset

Mitä tarvitaan? n n algoritmeja perustietorakenteet, esim. puut ja niiden läpikäyntialgoritmit äärelliset automaatit, säännölliset lausekkeet, kieliopit tilastotieteen/todennäköisyyslaskennan perusteet

Kieliteknologian opiskelu n n n HY: oppiaine kieliteknologia (yleisen kielitieteen laitos) valtakunnallinen Kieliteknologian opetuksen

Kieliteknologian opiskelu n n n HY: oppiaine kieliteknologia (yleisen kielitieteen laitos) valtakunnallinen Kieliteknologian opetuksen verkosto (KIT-verkosto) alkanut v. 2001 opetusta on lisätty myös TKTL: llä ja muuhun verkoston opetukseen osallistuminen yritetään tehdä helpoksi

KIT-verkosto n n n Kieliteknologian opetuksen verkosto mukana yli 20 laitosta 10 yliopistosta ja

KIT-verkosto n n n Kieliteknologian opetuksen verkosto mukana yli 20 laitosta 10 yliopistosta ja korkeakoulusta mm. kielitiede, fonetiikka, tietojenkäsittelytiede (yliopistot ja teknillisen korkeakoulut), informaatiotutkimus, käännöstiede, kielenopetus/oppiminen, psykologia

Kieliteknologian kursseja n Perusopinnot, mm. n n n Yleisen kielitieteen peruskurssi (aloita tästä!) Kieliteknologian

Kieliteknologian kursseja n Perusopinnot, mm. n n n Yleisen kielitieteen peruskurssi (aloita tästä!) Kieliteknologian johdantokurssi Automaattinen fonologinen ja morfologinen analyysi Automaattinen syntaktinen analyysi Tekstikorpusten tietojenkäsittely Tietokoneavusteinen kääntäminen

TKT: n opiskelijoille. . . n n n TKTL kuuluu KIT-verkostoon TKTL: n opiskelijat

TKT: n opiskelijoille. . . n n n TKTL kuuluu KIT-verkostoon TKTL: n opiskelijat voivat ”hakea” verkostoon ja suorittaa kaikkia verkoston kursseja kokonaisia arvosanoja voi suorittaa kieliteknologia-oppiaineessa -> sivuaine) (

TKTL: n tarjonta n n n n XML-metakieli Laajojen dokumenttiaineistojen käsittely Rakenteisten dokumenttien käsittely

TKTL: n tarjonta n n n n XML-metakieli Laajojen dokumenttiaineistojen käsittely Rakenteisten dokumenttien käsittely Tiedonhakumenetelmät Tiedon eristäminen tekstistä Tietämyksen muodostaminen Sanojen distributionaalinen samanlaisuus Tekstiaineistojen tilastosuureita

Lisätietoja n Helena Ahonen-Myka (KIT-vastuuhenkilö TKTL: llä) n http: //www. cs. helsinki. fi/u/hahonen/ktekno/ n

Lisätietoja n Helena Ahonen-Myka (KIT-vastuuhenkilö TKTL: llä) n http: //www. cs. helsinki. fi/u/hahonen/ktekno/ n http: //www. ling. helsinki. fi/kieliteknologia/verkosto/ n opinto-opas