Pteris Paikens Datorzintne un ts starpdisciplinrie lietojumi dabaszintns
Pēteris Paikens Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs
Par mani �Nupat sāku studēt doktorantūrā �LU datorzinātņu bakalaurs + RTU MBA grāds � 12 gadi darba IT jomā – programmēšana, procesu automatizācija un projektu vadība �Kopš 2006. gada LU MII
Tēma Semantiskās informācijas ieguve no dabiskās valodas avotiem �Datorlingvistikas metodes valodas apstrādei �Nepārraudzītas mašīnmācīšanās metodes �Semantikas reprezentācija �Praktiskie pielietojumi
Datorlingvistika �Metodes dabiskās valodes apstrādei �Analīze, ģenerēšana, dialogs �Formālu valodas modeļu izveide �‘Daudzslāņu torte’ ◦ ◦ ◦ Fonētika Morfoloģija Sintakse Semantika Diskurss
Mašīnmācīšanās �Populārākie un efektīvākie risinājumi ◦ Mašīntulkošana (google translate un citi) ◦ Runas atpazīšana ◦ Gramatiku un sintakses analizatoru veidošana �Vajag lielu apjomu marķētu datu �‘Bootstrapping’ iespējas ◦ ‘ 90%’ rīks > pusmanuāla marķēšana > ‘ 99%’ rīks
Problēmu vienkāršošana �Kontrolētās valodas ◦ Formāli kontrolētas valodas ◦ Vieglā valoda �Nozares (‘domain’) ierobežojums ◦ Ierobežots, uzskaitāms leksikons ◦ Mazāk daudznozīmību �Cilvēka pārraudzība ◦ Iespēja izvēlēties no vairākiem variantiem ◦ Pārjautāšana un iespēja koriģēt
Semantiskā analīze �Problēmai piemērota modeļa izveide ◦ Klasiskās DAS, RDBS, u. c ◦ RDF �Teksta analīzes pielāgošana modelim ◦ Vārda ‘piemeklēšana’ – statistika vai pattern matching ◦ Sintakses analīzes koku izmantošana ◦ Ietvara semantika (‘frame semantics’)
Ietvara semantika �Vārdi jēgu iegūst tikai konkrētā ietvarā ◦ Uzskaitam ietvarus un vārdu jomas tajos Gulēšana: gulēt ≈ snaust ≈ šņākt ≈ parubīties ≈ nakšņot utml. Elementi: gulētājs, ilgums, vieta, veids, laiks, pakāpe �Var šīs vārdu lomas automātiski atrast «Tas nozīmē, ka priekšlaikus dzimušie zīdaiņi atrodas ne tikai inkubatorā, bet arī no dažām minūtēm līdz vairākām stundām dienā <guļ> uz māmiņas vēdera. » �Var pārveidot atbilstoši lietojuma specifikai, uz predikātu loģiku, utml
Praktiskie pielietojumi �Klasiskie valodas pielietojumi ◦ Pareizrakstība un mašīntulkošana ◦ Runas atpazīšana un sintēze �Ceļš uz vispārīgu MI (‘general AI’) ◦ IBM Watson risinājums ◦ Zināšanu bāzes iegūšana ‘iemācoties vikipēdiju’ �Strukturētu datu iegūšana no interneta haosa ◦ Preču informācijas iegūšana no teksta aprakstiem ◦ Lietotāju komentāru analīze
Starpdisciplinārie pielietojumi � Valodas resursu izveide un automatizēta analīze valodniecības pētījumiem � Publiskās elektroniskās komunikācijas analīze politoloģijas un socioloģijas pētījumiem � Tirgus rādītāju (akcijas, commodities) saistība ar ziņu un komentāru teksta saturu � Dabiskās valodas saskarņu iespējas programminženierijas risinājumos
Publikācijas �An implementation of a Latvian resource grammar in Grammatical Framework – iesniegts Language Resources and Evaluation 2012 konferencei �Lexicon-Based Morphological Analysis of Latvian Language – publicēts Proceedings of the 3 rd Baltic Conference on Human Language Technologies 2007.
Paldies par uzmanību! Jautājumi?
- Slides: 12