Universitatea Alexandru Ioan Cuza Iai Facultatea de Informatic
- Slides: 20
Universitatea , , Alexandru Ioan Cuza”, Iaşi Facultatea de Informatică Word Epoch Disambiguation: Finding How Words Change Over Time Rusu Alexandru Master Lingvistica Computationala Anul 2
Rada Mihalcea Computer Science and Engineering University of North Texas Vivi Nastase Institute for Computational Linguistics University of Heidelberg http: //www. aclweb. org/anthology/P/P 12 -2051. pdf
Cuprins • Introducere • Conexiuni cu alte lucrari • Word Epoch Disambiguation • Setari experimentale • Rezultate si discutii • Concluzii
Introducere • Scopul lucrarii actuale este acela de a privi limba ca un fenomen care evolueaza, care poate fi investigat, analizat si folosit atunci cand se lucreaza cu colectii de text care acopera un interval de timp mare. • Fenomenele implicate in shimbarile produse in limba sunt numeroase insa lucrarea se concentreaza asupra utilizarii cuvintelor in diferite epoci de timp
Introducere • run: cuvant folosit in trecut cu sens intranzitiv a dobandit un sens tranzitiv • scopul cercetarii curente este de a cuantifica schimbarile aparute in utilizarea cuvintelor, schimbari care pot fi efectul a diversi factori: • schimbari in sens( adaugare/schimbare) • schimbari in distributie • schimbari ortografice
Introducere • Google books • 1800+/-25 ani • 1900+/-25 ani • 2000+/-25 ani • Cuvinte care apar frecvent in toate aceste epoci • Cuvinte care apar frecvent doar intr-una dintre ele
Conexiuni cu alte lucrari • Michel et al. , 2011 • Reali and Griffiths (2010) • Blei and Lafferty (2006) and Blei and Lafferty • (2007) • Wang and Mc. Callum (2006), Wang et al. (2008) • Wijaya and Yeniterzi (2011)
Word Epoch Disambiguation • Epoca = perioada de 50 de ani • 1800 +/-25 • 1900 +/-25 • 2000 +/-25
Setari experimentale • Cuvinte tinta • Mixtura de cuvinte polisemantice si monosemantice • Cuvinte cu frecventa in toate epocile • Cuvinte cu frecventa intr-o singura epoca
Setari experimentale • Parti de vorbire : substantive, verbe, adjective, adverbe • 50 cuvinte impartite in 2 seturi: • 25 cuvinte cu mai multe sensuri • 25 cuvinte cu un singur sens Pentru fiecare set: 10 cuvinte care sunt frecvente in toate cele 3 epoci 5 -5 -5 cuvinte pe fiecare epoca
Setari experimentale • Pentru fiecare cuvant tinta din setul de date s-au colectat primele 100 de fragmente returnate de o cautare pe Google Books • Stanford tagger(Toutanova et al. , 2003)
Setari experimentale • Algoritmul de dezambiguizare • sistem care integreaza caracteristici locale si de actualitate • caracteristici locale • cuvantul curent cu partea de vorbire corespunzatoare • contextul local, de trei cuvinte la stânga și la dreapta de cuvânt ambiguu • partile de vorbire a cuvintelor din jur • primul verb inainte si dupa cuvantul tinta • primul substantiv inainte si dupa cuvantul tinta
Setari experimentale • Caracteristicile de actualitate • determinate de contextul global • lista de ce mult 5 cuvinte care apar de cel putin 3 ori in definerea unei clase Acest set de caracteristici este similar cu cel folosit de Ng si Lee, 1996. Caractersticile sunt apoi integrate intr-un clasificator Bayes Naïve( Lee si Ng, 2002)
Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 46 190 42. 54% 66. 17% Verb 49 198 42. 25% 59. 71% Adjective 26 136 48. 60% 60. 13% Adverb 44 213 40. 86% 59. 61% Average 165 190 42. 96% 61. 55% Rezultate pentru diferite parti de vorbire
Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 18 180 42. 31% 65. 77% Verb 19 203 43. 45% 56. 43% Adjective 7 108 46. 27% 57. 75% Adverb 17 214 40. 30% 56. 41% Average 61 188 42. 56% 59. 33% Frecventa ridicata in toate epocile POS No. words Avg. no. examples Baseline WED Noun 28 196 42. 68% 66. 42% Verb 30 194 41. 50% 61. 80% ridicata in toate epocile 146 49. 47% 61. 02% Adjective Frecventa 19 Adverb 27 213 41. 20% 61. 63% Average 104 191 43. 20% 62. 86% Frecventa ridicata intr-o singura epoca
Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 24 191 41. 98% 66. 55% Verb 25 214 42. 71% 58. 84% Adjective 12 136 45. 40% 57. 42% Adverb 23 214 39. 38% 60. 30% Average 84 196 41. 94% 61. 16% Cuvinte polisemantice POS No. words Avg. no. examples Baseline WED Noun 22 188 43. 25% 65. 77% Verb 24 Adjective 14 136 51. 36% 62. 47% Adverb 21 213 42. 49% 59. 15% Average 81 183 44. 02% 61. 96% Cuvinte polisemnatice 41. 78% 181 Cuvinte monosemantice 60. 63%
Rezultate si discutii • Rezultate obtinute pentru 165 de cuvinte. • Cuvinte cu imbunatatiri semnificative • computer: 42% • install: 41% • Cuvinte cu imbunatatiri mici • again: 3% • captivate: 7%
Rezultate si discutii • Cuvintele folosite mai des intr-o epoca sunt mai usor de dezambiguizat • reassert – frecventa mai mare in 2000, precizie de dezambiguizare de 67. 25% comparativ cu 34. 15% • conceal – apare cu o frecventa mai mare in cele 3 epoci, precizie de dezambiguizare de 44. 70%, imbunatatire relativ mica fata de 38. 04%
Rezultate si discutii • Cea de a doua analiza se concentreaza asupra cuvintelor polisemantice vs monosemanitce • Cuvintele monosemantice nu prezinta modificari peste timp, astfel incat clasificarea lor in diferite epoci se bazeaza exclusiv pe variatia contextului • Contextul cuvintelor polisemantice se schimba pentru ca sunt modificari atat in vocabular cat si la nivel de sens
Concluzii • Imbunatatiri de 18. 5% • Rezultatele indica faptul ca exista diferente semnificative intre aparitiile cuvintelor in diferite perioade de timp. • Analizele suplimentare sugereaza ca modificarile in utilizarea frecventa a cuvintelor precum si a sensurilor acestora contribuie la aceste schimbari.
- Facultatea de psihologie
- Alexandru ioan cuza ploiesti
- Colegiul national alexandru ioan cuza corabia
- Alexandru ioan cuza
- Pd iai diy
- Iai university
- 15 palabras con triptongo
- Rerangka kode etik iai
- Confieis tiene triptongo
- Iai
- Cuvinte cu iai
- Identifica in text pasaje in care parintele trandafir
- Universitatea babeș-bolyai din cluj-napoca serban agachi
- Universitatea de medicina timisoara
- Dppd ucv craiova
- Mircea iliescu cambridge
- Izodens
- Universitatea alecu russo din balti facultati
- Facultatea de stiinte economice ovidius
- Universitatea de medicina si farmacie victor babes
- Universitatea din bonn