Kieliteknologia Helena AhonenMyka 21 10 2002 Sisllys n
- Slides: 48
Kieliteknologia Helena Ahonen-Myka 21. 10. 2002
Sisällys n n Mitä on kieliteknologia? Kielitieteen osa-alueita Kieliteknologiaan liittyvää tutkimusta TKTL: llä Kieliteknologian opiskelu
Mitä on kieliteknologia? n Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen käsittelyä varten.
Kieliteknologian sovelluksia n n n luonnollisen kielen käyttöliittymissä puheentunnistus ja puhesynteesi tekstimuotoisen tiedon hallinta, tiedonhaku, tiivistelmien tuottaminen kielenkääntämisen tuki teknologia-avusteinen kielenoppiminen kirjoittajan apuvälineet
Kielitieteen osa-alueita n n n fonetiikka fonologia morfologia syntaksi semantiikka pragmatiikka
Fonetiikka n n n tutkitaan puheen tuottamista ja havaitsemista perusyksikkö: äänne (fooni) kieliteknologiasovellukset: automaattinen puheentunnistus ja tuottaminen n n esim. käyttöliittymissä HY: fonetiikan laitos
Fonologia n n äänneaineksen selvittäminen kielen rakenteen kannalta perusyksikkö: foneemi esim. [p l s m j] ovat eri foneemeja suomenkielessä, koska puu - luu - suu - muu - juu eroavat merkitykseltään toisaalta erilaiset r-äänteet ovat saman foneemin muunnelmia: Ranska, harava, . . .
Morfologia n ”sanojen” sisäinen rakenne n n sanan osalla jokin merkitys tai kieliopillinen tehtävä perusyksikkö: morfeemi n n vapaat morfeemit (kirja, punainen, …) taivutusmorfeemit n n sija-, luku-, persoona-, aikamuoto-, . . . päätteet johdinmorfeemit n n rakenteelliset (-minen: verbi->substantiivi) merkitystä modifioivat (näyttä+mö, teurasta+ja)
Morfologia n automaattinen morfologinen analyysi n n n morfeemien tunnistaminen ja tulkinta sanaluokkien määrittely perusmuotoon palautus taivutusmuotojen/sananvartaloiden generointi analyysin tulos esim. rikoslain ongelma: moniselitteisyys n rikoslaki N Gen Sg esim. ’alusta’ (alku, alustaa, alus, …)
Morfologia n Etsi kaikki dokumentit, joissa esiintyy sana n ’vesi’ n n ”Monet kalat viihtyvät kylmässä vedessä. ” ’cat’ (tai ’cat*’) n ”Cats don’t like dogs. ”
Syntaksi n n n ~lauseenjäsennys lauseiden rakenneosat, niiden suhteet ja roolit (subjekti, objekti, . . . ) syntaksi voi ratkaista moniselitteisyyksiä morfologisessa analyysissä n ”Alusta oli vakaa. ”
Semantiikka n merkitysten ja niiden rakenteiden tutkimus kielellisistä lähtökohdista käsin n n mm. miten lauseiden merkitys kootaan sanojen merkityksestä automaattisessa kielen käsittelyssä käytettävissä mm. n n tesaurukset: synonyymit, ala- ja yläkäsitteet, … ontologiat: käsitehierarkiat/verkot, ”maailman mallit”, käsitteiden erilaiset suhteet
Pragmatiikka n n kielen käytön säännöt puhujien käytännön tieto maailmasta ja siitä, mikä on mahdollista ”Violetit ideat nukkuvat rajusti. ” vertaa: n n n ”Onks sulla tulta? ” ”Onks sulla auto? ” ”Onks sulla oma asunto? ”
TKTL: n tutkimusta: DOREMI-ryhmä n n n n n Helena Ahonen-Myka Greger Lindén Marko Salmenkivi Oskari Heinonen Juha Makkonen Jussi Piitulainen Kaisa Kostiainen Lili Aunimo Miro Lehtonen n n n Reeta Kuuskoski Antoine Doucet Martin Fluch Andrei Popescu Renaud Petit Otso Virtanen
TKTL: n tutkimusta: TYTTI n TYTTI - Tietotyöläisen työasema n n tiedonhaun tuki, esim. uutistapahtuman seuraaminen rahoitus: n TEKES, Alma Media, WSOY, Vaisala, Nokia Networks, Lingsoft
Tietovirtojen suodattaminen n n Sama informaatio tulee monesta lähteestä (esim. sanomalehdelle 30 uutistoimistosta) vanhaa informaatiota toistetaan useaan kertaan ajan kuluessa (esim. onnettomuuden perustiedot)
Tietovirtojen suodattaminen n n Tavoite: ohjelmisto, jonka avulla käyttäjä voi helposti seurata haluamaansa aihetta päällekkäisen informaation määrä minimoidaan: ensimmäinen uutinen näytetään kokonaan, seuraavista vain eroavat osat
Esimerkki n ”Käsiaseella myyjää uhannut pipomies ryösti Valintatalon sulkemisaikaan kello 21 Meripihkantiellä Helsingin Pihlajamäessä torstai-iltana. ”
Tutkimusongelmia n n n dokumentin aihepiiri täytyy määritellä, kuvaako dokumentti jotain uutta aihetta/tapahtumaa, vai täytyykö tutkia sen suhdetta aikaisempiin dokumentteihin jos dokumentti ei kuvaa uutta tapahtumaa, on löydettävä aikaisemmat tapahtumaan liittyvät dokumentit
Tutkimusongelmia n eristetään nimiä, paikan ja ajan ilmauksia, teknisiä termejä yms. kuvaajiksi n n kuvaaja: joukko nimiä + joukko paikan ilmauksia + joukko ajan ilmauksia + muita ”tärkeitä” sanoja verrataan uuden dokumentin kuvaajaa vanhoihin n n esim. paljonko kahdessa dokumentissa on yhteisiä paikannimiä/erisnimiä? Ovatko dokumenttien kuvaamat aikajaksot päällekkäisiä? on keksittävä joku tapa mitata samanlaisuutta
Kieliteknologia-apuvälineitä n Apuvälineitä kieliteknologiasta: sanojen perusmuotoon palautus, sanaluokkatieto, erisnimien ja termien eristäminen n voidaan käyttää tekstin esikäsittelyssä, ennen kuin poimitaan sanoja dokumenttien kuvaajiin
TKTL: n tutkimusta: APPA n n Kysymyksiin vastaava järjestelmä esim. asiakaspalvelua varten rahoitus: n Sonera
Kysymyksiin vastaava järjestelmä n Kaasulaitoksen asiakaspalveluun tulee kysymyksiä: n n Paljonko kaasu maksaa ensi vuonna? Mitä kaasuliesiä teillä on myynnissä? Minulla on ABC Super –kaasuliesi, joka on alkanut pitää omituista ääntä. Pitääkö sitä huoltaa? Olen lähdössä matkoille puoleksi vuodeksi. Miten voin keskeyttää sopimukseni siksi aikaa?
Kysymyksiin vastaava järjestelmä n n n Asiakkailta tulee paljon kysymyksiä, sähköpostina ja tekstiviesteinä samanlaiset kysymykset toistuvat kysymyksiin pitäisi vastata nopeasti Voisiko vanhoja kysymyksiä ja vastauksia hyödyntää? ratkaisu: kysymyksiin vastaava järjestelmä (asiantuntijan tueksi)
Tutkimusongelmia n Kysymysten analysointi n n n eristetään informaatiota kysymyksestä: kysymyssana, erisnimet (ihmisten, yritysten, tuotteiden), ajan ja paikan ilmauksia, muita tärkeitä termejä, . . . lauseita voidaan jäsentää merkityksen selvittämiseksi ongelma: teksti usein puhekielistä ja ”virheellistä”
Tutkimusongelmia n Vastauksen löytäminen n kysymykset luokitellaan aiheen mukaisiin kategorioihin (eristetyn informaation perusteella) valitaan talletetuista kysymys-vastaus -pareista ne, jotka ovat annetussa kategoriassa kaikkein samanlaisimpia kuin ko. uusi kysymys samanlaisuus täytyy määritellä!
Tutkimusongelmia n Vastauksen koostaminen n vastausehdokkaat näytetään asiakaspalveluhenkilölle tarkastusta varten lopullinen vastaus muodostetaan valitusta vastauksesta ja mahdollisista kiinteistä osista (esim. tervehdykset, yhteystiedot, päiväys) vastaus lähetetään asiakkaalle; kysymys ja vastaus talletetaan
TKTL: n tutkimusta: Tekstin louhinta n n n Yleisten fraasien etsiminen tekstistä rahoitus: Suomen Akatemia yhteistyötä Caenin yliopiston kanssa (Ranska)
Yleisten fraasien etsintä n n Etsitään kaikki sellaiset sanajonot (eli fraasit), jotka esiintyvät vähintään k kertaa tekstissä (esim. vähintään 10 kertaa) etsitään vain maksimaalisen pitkät sanojen välissä tekstissä voi esiintyä muutama muu sana fraasit voivat olla miten pitkiä tahansa
Esimerkki fraaseista n Dokumenteista löytyvät pätkät: n n n … Suomen pääministeri Paavo Lipponen tapasi Tukholmassa. . . … pääministeri Lipponen keskusteli Tukholmassa … näistä tekstipätkistä löydettäisiin fraasi ‘pääministeri Lipponen Tukholmassa’
Helsingin yliopiston rehtori Kari Raivio n n n n Helsingin yliopiston Helsingin rehtori Helsingin Kari yliopiston rehtori yliopiston Kari rehtori Raivio yliopiston rehtori Raivio Helsingin Kari Raivio. . .
Sovellusmahdollisuuksia n Fraasit dokumenttien kuvaajina n n edellä: dokumentin kuvaajana on käytetty joukkoa dokumentin sanoja tms. joukkoon voitaisiin lisätä fraaseja Asteittain tarkentuva tiedonhaku Kielen rakenteiden tutkimus
Asteittain tarkentuva tiedonhaku n n Ongelma: ihmiset haluavat tehdä lyhyitä ja yksinkertaisia kyselyjä (1 -2 sanaa) tuloksena voi olla paljon merkityksettömiä dokumentteja ongelma varsinkin pienillä näytöillä ratkaisu: tarjotaan välitasoja
Välitasoja n n fraaseja lauseita tekstikappaleita tiivistelmiä
Agricultur* n n n agricultural exports agricultural products agricultural subsidies u. s. agriculture european community agriculture. . .
Lause/tekstikappale n Paye stressed the need for a progressive and joint reduction of agricultural subsidies as well as social measures to help farmers in unprofitable areas.
Kielen rakenteiden tutkimus: sanan ympäristö n n … that things weren’t right between us Is that the right time? Stay right here. They had the right to strike.
Kielen rakenteiden tutkimus: sanan ympäristö n They had the right to strike. n n n <they, Pronoun, plural, 3> <had, Verb, imperfect, singular, 3> <the, Determiner> <right, Noun, singular> <to, Preposition> <strike, Verb, infinitive>
Kielen rakenteiden tutkimus: yleistys n n be right between ’Pronoun’ the right ’Noun’ ’Verb’ right here the right to ’Verb’ n n hahmo yleistää tapauksia: the right to strike, the right to vote, … Tätä ei vielä (oikein) osata tehdä!
Miten tutkimusta tehdään? n n n Tutkimusongelma löytyy usein jostakin käytännön ongelmasta käytännön ongelma jaetaan useiksi teoreettisiksi ongelmiksi haetaan perusmenetelmiä eri aloilta pohjaksi ja kehitetään ratkaisuja n n n samalla löytyy myös uusia teoreettisia ongelmia rakennetaan prototyyppejä testataan todellisilla dokumenttikokoelmilla
Mihin tämä tutkimusalue sijoittuu? n n Informaatiojärjestelmien erikoistumislinja hyödynnetään tietokantateoriaa, tekoälymenetelmiä (mm. koneoppiminen), tiedon louhintaa ja analyysiä, tiedonhakumenetelmiä, merkkijonomenetelmiä, kielitiedettä, tilastotiedettä
Mitä tarvitaan? n n algoritmeja perustietorakenteet, esim. puut ja niiden läpikäyntialgoritmit äärelliset automaatit, säännölliset lausekkeet, kieliopit tilastotieteen/todennäköisyyslaskennan perusteet
Kieliteknologian opiskelu n n n HY: oppiaine kieliteknologia (yleisen kielitieteen laitos) valtakunnallinen Kieliteknologian opetuksen verkosto (KIT-verkosto) alkanut v. 2001 opetusta on lisätty myös TKTL: llä ja muuhun verkoston opetukseen osallistuminen yritetään tehdä helpoksi
KIT-verkosto n n n Kieliteknologian opetuksen verkosto mukana yli 20 laitosta 10 yliopistosta ja korkeakoulusta mm. kielitiede, fonetiikka, tietojenkäsittelytiede (yliopistot ja teknillisen korkeakoulut), informaatiotutkimus, käännöstiede, kielenopetus/oppiminen, psykologia
Kieliteknologian kursseja n Perusopinnot, mm. n n n Yleisen kielitieteen peruskurssi (aloita tästä!) Kieliteknologian johdantokurssi Automaattinen fonologinen ja morfologinen analyysi Automaattinen syntaktinen analyysi Tekstikorpusten tietojenkäsittely Tietokoneavusteinen kääntäminen
TKT: n opiskelijoille. . . n n n TKTL kuuluu KIT-verkostoon TKTL: n opiskelijat voivat ”hakea” verkostoon ja suorittaa kaikkia verkoston kursseja kokonaisia arvosanoja voi suorittaa kieliteknologia-oppiaineessa -> sivuaine) (
TKTL: n tarjonta n n n n XML-metakieli Laajojen dokumenttiaineistojen käsittely Rakenteisten dokumenttien käsittely Tiedonhakumenetelmät Tiedon eristäminen tekstistä Tietämyksen muodostaminen Sanojen distributionaalinen samanlaisuus Tekstiaineistojen tilastosuureita
Lisätietoja n Helena Ahonen-Myka (KIT-vastuuhenkilö TKTL: llä) n http: //www. cs. helsinki. fi/u/hahonen/ktekno/ n http: //www. ling. helsinki. fi/kieliteknologia/verkosto/ n opinto-opas
- Cocitus
- Helena ranängen
- Helena novak
- Mudr. helena staňková
- Helena lemmats
- Agora é a hora de compartilharmos com carlos e helena
- Spnek
- Helena hutchins
- Midsummer night's dream dramatis personae
- Se helena apartar analise
- Helēna reizniece
- Helena törölä
- Helena wong cityu
- Leopold staff prezentacja
- Helena reguli
- Tezy kwietniowe definicja
- Helena orrevad
- Genombrottsmodellen
- Helena kosec
- Blessed maria helena
- Helena de chauvin
- Varietoscope 1987
- Progressiva akemi
- Madre maria helena cavalcanti
- Helena romanes
- Prehistoria prezentacja
- Helena modrzejewska porn
- Anger management helena mt
- Kuressaare kaubamaja poed
- Risto hotulainen
- Helena wisniewski
- Helena heinonen
- Helena tomaszewska historia
- Helena djurkovic
- Mudr. helena reguli
- Helena reguli
- Helena de chauvin
- Helena rausell
- Elenaranko.ucoz
- Helena wittkopf
- Helena hnilicová
- Helena andersson aneby
- Anna helena altenfelder
- Helena kirkendall
- Pradzieje ziem polskich streszczenie
- Helena alati
- Helena felgueiras
- Spnek
- Nejúčinnější antidepresiva