Vyuitie JBowl kninice pri rieen loh dolovania znalost
Využitie JBowl knižnice pri riešení úloh dolovania znalostí z textov František Babič Štefan Bašista Roman Dudek Roman Mihaľ Peter Savčák WIKT 2010, 11. -12. 11. 2010 Bratislava
Osnova l l l Úvod Klasifikačná úloha Korpus a klasifikačná schéma Trénovacia a testovacia množina Klasifikátory Záver WIKT 2010, 11. -12. 11. 2010 Bratislava 2/12
Úvod (1) l l Proces objavovania znalostí v množine textových dokumentov predstavuje iteratívny a interaktívny proces získavania platných, pre danú aplikáciu užitočných a doposiaľ neznámych znalostí. Fázy: pochopenie aplikačnej domény, získanie relevantnej množiny dokumentov, predspracovanie dát, dolovanie v textoch, vizualizácia a interpretácia výsledkov. WIKT 2010, 11. -12. 11. 2010 Bratislava 3/12
Úvod (2) l Systém JBowl (Java Bag-of-words Library) predstavuje softvérovú knižnicu implementovanú v jazyku Java, ktorá poskytuje objektový model a rozhrania (API) pre vytváranie aplikácií získavania znalostí a dolovania v textoch. WIKT 2010, 11. -12. 11. 2010 Bratislava 4/12
5/12
Klasifikačná úloha (1) l l l Vytvoriť paralelný korpus z textov na Wikipédii, ktorý bude obsahovať dokumenty v slovenčine a v angličtine (z rôznych oblastí). Navrhnúť klasifikačnú schému pokrývajúcu relevantné domény. Korpus rozdeliť na trénovaciu a testovaciu množinu, pre oba jazyky. WIKT 2010, 11. -12. 11. 2010 Bratislava 6/12
Klasifikačná úloha (2) l l Experimenty prostredníctvom webovej aplikácie ku knižnici JBowl - vytvorenie klasifikátorov pre oba jazyky s rôznymi nastaveniami. Vyhodnotenie vzhľadom na použíté nastavenie, prístupy alebo celkovú funkčnosť použitej aplikácie. WIKT 2010, 11. -12. 11. 2010 Bratislava 7/12
Korpus a klasifikačná schéma l l Manuálny zber relevantných dokumentov. Rozsah korpusu okolo 450 dokumentov. Klasifikačná schéma: 4 hlavné kategórie, 30 podkategórií Každá podkategória obsahovala 10 až 20 textov o veľkosti 1 -5 strán. WIKT 2010, 11. -12. 11. 2010 Bratislava 8/12
Trénovacia a testovacia množina l l l Rozdelenie 80% trénovanie a 20% testovanie. Textové dokumenty boli reprezentované prostredníctvom bežných textových formátov ako doc, pdf alebo plain text. Klasifikačná schéma reprezentovaná ako adresárová štruktúra. WIKT 2010, 11. -12. 11. 2010 Bratislava 9/12
Klasifikátory l 7 experimentov na oboch častiach korpusu 10/12
Záver l l Možnosť prakticky realizovať kroky procesu dolovania znalostí z textov. Prístup k jednotlivým funkciám knižnice JBowl. Možnosť distribuovane spúšťať viacero experimentov, viac algoritmov predspracovania dát. Podrobná dokumentácia ku knižnici JBowl. WIKT 2010, 11. -12. 11. 2010 Bratislava 11/12
Ďakujem za pozornosť Paralič J. a kol. : Dolovanie znalostí z textov 12/12
- Slides: 12