Urovanie slovnch druhov v slovenine AUTOR PRCE DALIBOR
Určovanie slovných druhov v slovenčine AUTOR PRÁCE: DALIBOR MÉSZÁROS VEDÚCI PRÁCE: ING. MÁRIUS ŠAJGALÍK
Ciele práce Navrhnúť, vytvoriť a analyzovať riešenie pre slovenský jazyk Prispôsobiť existujúce overené metódy z anglického jazyka ◦ Podmienené náhodné polia ◦ Črty Overiť riešenie na slovenských anotovaných textoch ◦ Zdroj: Slovenský národný korpus ◦ Jazykovedný ústav Ľ. Štúra Slovenskej akadémie vied ◦ Texty Wikipédie a Necyklopédie ◦ 37 548 997 tokenov
Prečo? Zaužívané slovníkové metódy majú mnoho nedostatkov: ◦ Sú závislé na robustnosti slovníku ◦ Hľadia na slová ako samostatné prvky Podmienené náhodné polia rozširujú slovníkovú metódu o ◦ Kontext, vzťahy medzi slovami Podmienené náhodné polia tiež eliminujú z veľkej časti potrebu manuálne definovať pravidlá
Podmienené náhodné polia Štatistické grafové modely Podkategória diskriminatívnych grafových modelov Vznikli rozšírením skrytého Markovho modelu
Podmienené náhodné polia Základné množiny grafu ◦ Pozorované premenné, prvky = slová ◦ Výstupné premenné, štítky (label) = slovné druhy
Podmienené náhodné polia Rozšírenie pozorovaných premenných ◦ črty (features)
Črty "Ľahko" zistiteľné informácie o slove Jednoduché: ◦ Aké znaky obsahuje slovo ◦ Transformácie slov ◦ Číselné údaje o slove (pozícia vo vete, počet znakov) Zložitejšie: ◦ Použitie "slovníkov" na zistenie ďalších informácií o slove
Črty pre slovenčinu Prefixy a sufixy ◦ Predpony a prípony dĺžok 1 až 4 jablko - j ja jabl - o ko lko blko ◦ Majú značný vplyv na určovanie slovných druhov ◦ Napr. v prípade slov končiacich na ◦ ť – slovo je s väčšou pravdepodobnosťou sloveso ◦ ý – slovo je s väčšou pravdepodobnosťou prídavné meno Slová z malých písmen ◦ Slová sú reprezentované ako reťaze znakov ◦ Veľké písmená nie sú ekvivalentné malým písmenám
Črty pre slovenčinu Informácia, či slovo obsahovalo veľké písmená ◦ Začiatočné písmeno ◦ Celé slovo z veľkých písmen ◦ Čiastočne z veľkých písmen Jablko – 1 0 0 Pe. We – 1 0 1 FIIT – 1 1 1 Informácia, či slovo obsahuje špeciálne znaky ◦ Čísla ◦ Interpunkčné znamienka #jablko – 0 1
Črty pre slovenčinu Dĺžka reťazca slov jablko – 6 ◦ Zjednodušuje kategorizáciu pre krátke slová napr. spojky, citoslovcia Pozícia slova vo vete ◦ CRF pracuje s relatívnou pozíciou slov, napr. <-2, +2> ◦ Absolútna pozícia pomáha s učením všeobecných vzorov, ktoré sa dajú aplikovať na neznáme slová
Črty pre slovenčinu Vektory čŕt ◦ Pomocou vektorov je možné reprezentovať význam slov ◦ Na základe vektoru slova je možné zistiť N najbližších/podobných vektorov jablko – jabĺčko – mango ◦ Podobné vektory sú následne reprezentované pomocou svojho ID jablko – 759650 – 819517
Výsledky: Prvý experiment Trénovacia množina: 161 793 slov (0, 02%) Validačná množina: 34 552 slov
Výsledky: Druhý experiment Trénovacia množina: 515 624 slov (1, 00%) Validačná množina: 141 939 slov, 20 791 neznámych slov
Výsledky: Druhý experiment s vektormi čŕt Trénovacia množina: 515 624 slov (1, 00%) Validačná množina: 141 939 slov, 20 791 neznámych slov
Výsledky: Finálny experiment Trénovacia množina: 2 197 991 slov (10, 00%) Testovacia množina: 777 857 slov (10, 00%) Presnosť: 97, 45%
Výsledky: Finálny experiment Neznámych slov: 62 079 (8, 50%) Korektne označené neznáme slová: 54 133 (87, 20%)
Výsledky: Finálny experiment s vektormi čŕt Trénovacia množina: 515 624 slov (1, 00%) Testovacia množina: 777 857 slov (10, 00%) Presnosť: 96, 02%
Zhrnutie Najlepší dosiahnutý výsledok: ◦ 2 197 991 slov v trénovacej množine ◦ 97, 45% presnosť Hlavná výhoda oproti slovníkovej metóde: ◦ Schopnosť určiť slovný druh slova, aj keď sa nenachádza v slovníku Možné využitie v ďalších projektoch, ktoré sa zaoberajú napr. : ◦ Predspracovaním textu ◦ Syntaktickou analýzou ◦ Extrakciou kľúčových pojmov
- Slides: 18