Universitatea Alexandru Ioan Cuza Iai Facultatea de Informatic

  • Slides: 20
Download presentation
Universitatea , , Alexandru Ioan Cuza”, Iaşi Facultatea de Informatică Word Epoch Disambiguation: Finding

Universitatea , , Alexandru Ioan Cuza”, Iaşi Facultatea de Informatică Word Epoch Disambiguation: Finding How Words Change Over Time Rusu Alexandru Master Lingvistica Computationala Anul 2

Rada Mihalcea Computer Science and Engineering University of North Texas Vivi Nastase Institute for

Rada Mihalcea Computer Science and Engineering University of North Texas Vivi Nastase Institute for Computational Linguistics University of Heidelberg http: //www. aclweb. org/anthology/P/P 12 -2051. pdf

Cuprins • Introducere • Conexiuni cu alte lucrari • Word Epoch Disambiguation • Setari

Cuprins • Introducere • Conexiuni cu alte lucrari • Word Epoch Disambiguation • Setari experimentale • Rezultate si discutii • Concluzii

Introducere • Scopul lucrarii actuale este acela de a privi limba ca un fenomen

Introducere • Scopul lucrarii actuale este acela de a privi limba ca un fenomen care evolueaza, care poate fi investigat, analizat si folosit atunci cand se lucreaza cu colectii de text care acopera un interval de timp mare. • Fenomenele implicate in shimbarile produse in limba sunt numeroase insa lucrarea se concentreaza asupra utilizarii cuvintelor in diferite epoci de timp

Introducere • run: cuvant folosit in trecut cu sens intranzitiv a dobandit un sens

Introducere • run: cuvant folosit in trecut cu sens intranzitiv a dobandit un sens tranzitiv • scopul cercetarii curente este de a cuantifica schimbarile aparute in utilizarea cuvintelor, schimbari care pot fi efectul a diversi factori: • schimbari in sens( adaugare/schimbare) • schimbari in distributie • schimbari ortografice

Introducere • Google books • 1800+/-25 ani • 1900+/-25 ani • 2000+/-25 ani •

Introducere • Google books • 1800+/-25 ani • 1900+/-25 ani • 2000+/-25 ani • Cuvinte care apar frecvent in toate aceste epoci • Cuvinte care apar frecvent doar intr-una dintre ele

Conexiuni cu alte lucrari • Michel et al. , 2011 • Reali and Griffiths

Conexiuni cu alte lucrari • Michel et al. , 2011 • Reali and Griffiths (2010) • Blei and Lafferty (2006) and Blei and Lafferty • (2007) • Wang and Mc. Callum (2006), Wang et al. (2008) • Wijaya and Yeniterzi (2011)

Word Epoch Disambiguation • Epoca = perioada de 50 de ani • 1800 +/-25

Word Epoch Disambiguation • Epoca = perioada de 50 de ani • 1800 +/-25 • 1900 +/-25 • 2000 +/-25

Setari experimentale • Cuvinte tinta • Mixtura de cuvinte polisemantice si monosemantice • Cuvinte

Setari experimentale • Cuvinte tinta • Mixtura de cuvinte polisemantice si monosemantice • Cuvinte cu frecventa in toate epocile • Cuvinte cu frecventa intr-o singura epoca

Setari experimentale • Parti de vorbire : substantive, verbe, adjective, adverbe • 50 cuvinte

Setari experimentale • Parti de vorbire : substantive, verbe, adjective, adverbe • 50 cuvinte impartite in 2 seturi: • 25 cuvinte cu mai multe sensuri • 25 cuvinte cu un singur sens Pentru fiecare set: 10 cuvinte care sunt frecvente in toate cele 3 epoci 5 -5 -5 cuvinte pe fiecare epoca

Setari experimentale • Pentru fiecare cuvant tinta din setul de date s-au colectat primele

Setari experimentale • Pentru fiecare cuvant tinta din setul de date s-au colectat primele 100 de fragmente returnate de o cautare pe Google Books • Stanford tagger(Toutanova et al. , 2003)

Setari experimentale • Algoritmul de dezambiguizare • sistem care integreaza caracteristici locale si de

Setari experimentale • Algoritmul de dezambiguizare • sistem care integreaza caracteristici locale si de actualitate • caracteristici locale • cuvantul curent cu partea de vorbire corespunzatoare • contextul local, de trei cuvinte la stânga și la dreapta de cuvânt ambiguu • partile de vorbire a cuvintelor din jur • primul verb inainte si dupa cuvantul tinta • primul substantiv inainte si dupa cuvantul tinta

Setari experimentale • Caracteristicile de actualitate • determinate de contextul global • lista de

Setari experimentale • Caracteristicile de actualitate • determinate de contextul global • lista de ce mult 5 cuvinte care apar de cel putin 3 ori in definerea unei clase Acest set de caracteristici este similar cu cel folosit de Ng si Lee, 1996. Caractersticile sunt apoi integrate intr-un clasificator Bayes Naïve( Lee si Ng, 2002)

Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 46 190

Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 46 190 42. 54% 66. 17% Verb 49 198 42. 25% 59. 71% Adjective 26 136 48. 60% 60. 13% Adverb 44 213 40. 86% 59. 61% Average 165 190 42. 96% 61. 55% Rezultate pentru diferite parti de vorbire

Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 18 180

Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 18 180 42. 31% 65. 77% Verb 19 203 43. 45% 56. 43% Adjective 7 108 46. 27% 57. 75% Adverb 17 214 40. 30% 56. 41% Average 61 188 42. 56% 59. 33% Frecventa ridicata in toate epocile POS No. words Avg. no. examples Baseline WED Noun 28 196 42. 68% 66. 42% Verb 30 194 41. 50% 61. 80% ridicata in toate epocile 146 49. 47% 61. 02% Adjective Frecventa 19 Adverb 27 213 41. 20% 61. 63% Average 104 191 43. 20% 62. 86% Frecventa ridicata intr-o singura epoca

Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 24 191

Rezultate si discutii POS No. words Avg. no. examples Baseline WED Noun 24 191 41. 98% 66. 55% Verb 25 214 42. 71% 58. 84% Adjective 12 136 45. 40% 57. 42% Adverb 23 214 39. 38% 60. 30% Average 84 196 41. 94% 61. 16% Cuvinte polisemantice POS No. words Avg. no. examples Baseline WED Noun 22 188 43. 25% 65. 77% Verb 24 Adjective 14 136 51. 36% 62. 47% Adverb 21 213 42. 49% 59. 15% Average 81 183 44. 02% 61. 96% Cuvinte polisemnatice 41. 78% 181 Cuvinte monosemantice 60. 63%

Rezultate si discutii • Rezultate obtinute pentru 165 de cuvinte. • Cuvinte cu imbunatatiri

Rezultate si discutii • Rezultate obtinute pentru 165 de cuvinte. • Cuvinte cu imbunatatiri semnificative • computer: 42% • install: 41% • Cuvinte cu imbunatatiri mici • again: 3% • captivate: 7%

Rezultate si discutii • Cuvintele folosite mai des intr-o epoca sunt mai usor de

Rezultate si discutii • Cuvintele folosite mai des intr-o epoca sunt mai usor de dezambiguizat • reassert – frecventa mai mare in 2000, precizie de dezambiguizare de 67. 25% comparativ cu 34. 15% • conceal – apare cu o frecventa mai mare in cele 3 epoci, precizie de dezambiguizare de 44. 70%, imbunatatire relativ mica fata de 38. 04%

Rezultate si discutii • Cea de a doua analiza se concentreaza asupra cuvintelor polisemantice

Rezultate si discutii • Cea de a doua analiza se concentreaza asupra cuvintelor polisemantice vs monosemanitce • Cuvintele monosemantice nu prezinta modificari peste timp, astfel incat clasificarea lor in diferite epoci se bazeaza exclusiv pe variatia contextului • Contextul cuvintelor polisemantice se schimba pentru ca sunt modificari atat in vocabular cat si la nivel de sens

Concluzii • Imbunatatiri de 18. 5% • Rezultatele indica faptul ca exista diferente semnificative

Concluzii • Imbunatatiri de 18. 5% • Rezultatele indica faptul ca exista diferente semnificative intre aparitiile cuvintelor in diferite perioade de timp. • Analizele suplimentare sugereaza ca modificarile in utilizarea frecventa a cuvintelor precum si a sensurilor acestora contribuie la aceste schimbari.