Razvoj algoritma za avtomatsko generiranje ontologij Aleksander Pivk

  • Slides: 22
Download presentation
Razvoj algoritma za avtomatsko generiranje ontologij Aleksander Pivk fakultetni mentor: akademik prof. dr. Ivan

Razvoj algoritma za avtomatsko generiranje ontologij Aleksander Pivk fakultetni mentor: akademik prof. dr. Ivan institutski mentor: prof. dr. Matjaž Gams Bratko

Teza doktorata n na množici vhodnih dokumentov se poskuša sistem avtomatsko naučiti znanja o

Teza doktorata n na množici vhodnih dokumentov se poskuša sistem avtomatsko naučiti znanja o domeni, tj. ontologijo, ki se uporabi za avtomatsko luščenje informacij. Množica dokumentov Ontologija Ocenjevanje (ekspert) Sistem agost ni OK Vhodni dokument Ontologija OK Shin. A* Odgovor n doprinos – sistem za avtomatsko generiranje ontologij (strojno in človeško berljivih) iz spletnih dokumentov. Ena izmed temeljnih nerešenih nalog semantičnega spleta.

Postopek delovanja sistema PREDZNANJE ONTOLOGIJA POSTOPKOVNI OPIS: primeri iz določene domene (npr. CFP, e-nakupovanje,

Postopek delovanja sistema PREDZNANJE ONTOLOGIJA POSTOPKOVNI OPIS: primeri iz določene domene (npr. CFP, e-nakupovanje, …) a) s pomočjo predznanja procesiraj primere in pripravi podatke za učni algoritem b) uporabi učni algoritem za generiranje pravil (znanja) c) iz pravil zgradi ontologijo • dokumenti/primeri so zapisani v HTML • primere poda človek - <h#|b|i|title> - kw={workshop, conference, CFP}

Predznanje (1) n pet vrst predznanja: a) html oznake in strukture b) lastna imena

Predznanje (1) n pet vrst predznanja: a) html oznake in strukture b) lastna imena n pripadnost vnaprej definiranemu seznamu (imena oseb, držav, mest, ustanov, mesecev, dni, …) c) osnovne entitete d) sintaktična analiza besedila § (shallow language processing) orodje GATE (ogrodje za razvoj komponent pri procesiranju naravnega jezika) e) obstoječe splošne ontologije § Wordnet zahtevnost znanja

Predznanje (2) a) HTML OZNAKE in STRUKTURE n sintaksa jezika HTML n n ELEMENT:

Predznanje (2) a) HTML OZNAKE in STRUKTURE n sintaksa jezika HTML n n ELEMENT: par ujemajočih se oznak (<a>…</a>), enostavna oznaka ( ) ali tekst BLOK: (lahko) sestavljen iz več elementov, ločnico predstavljajo skupine oznak: n n interne povezave v dokumentu (#anchor) mejniki (<h#>, , <p>, <hr>, <blockquote>, …) SEZNAM: vsebina elementa pomembnost oznak n (<table>, <ul>, <ol>, <dt>) oznake z večjo informacijsko vrednostjo <i>, <b>, <u>, <center>…) (<h#>, <font>,

Predznanje (3) c) OSNOVNE ENTITETE n (hevristična) sintaktična pravila: n n n tel, fax:

Predznanje (3) c) OSNOVNE ENTITETE n (hevristična) sintaktična pravila: n n n tel, fax: (tel|fax|gsm|phone) +? \(? X\)? \(X\)? (-? X)+ e-mail: (e? -? mail(to)? )? Y(\. Y)*@Y(\. Y))+ datum: [DDDD|MMMM] d{2}W*d{2} W*d{4} ura: d{2}Z*d{2} temperatura: [T|temp] d{3}°? [C|F] X=[0 -9]+ Y=[0 -9 a-z. A-Z]+ W=[. , / ] Z=[: ]

Podrobnejši opis delovanja n vhodni parametri n n n procesiranje in priprava podatkov za

Podrobnejši opis delovanja n vhodni parametri n n n procesiranje in priprava podatkov za učenje n n n procesiranje in obdelava primerov na podlagi predznanja in strukturne analize priprava učnih atributov učna faza n n dokumenti/primeri iz izbrane domene izbira predznanj učni algoritmi: povezovalna pravila, ILP sistem (HYPER? ), HINT? induciranje pravil in dopolnjevanje atributov grajenje ontologije iz pravil zapis ontologije v formalen jezik (RDF/S, OWL)

Učna faza n osnovni korak n n n (bottom-up pristop) iz učnih atributov induciramo

Učna faza n osnovni korak n n n (bottom-up pristop) iz učnih atributov induciramo pravila sortiramo glede na (confidendce, support) izluščimo pravila nad pragom združevanje pravil v hierarhično strukturo (drevo) koraki višjih nivojev n n n (alg: povezovalna pravila) dodamo/dopolnimo učne atribute (agregacija, razbitje) iz učnih atributov induciramo nova pravila drevo nadgradimo z izbranimi novimi pravili postopek učenja pravil na višjih nivojev ponavljamo, dokler ne zgradimo celotnega drevesa (povežemo vsa poddrevesa) ponavljaj generirano drevo predstavlja ontologijo

Simulacija konkretnega primera n n n trije dokumenti/primeri iz domene CFP predznanje: a) -

Simulacija konkretnega primera n n n trije dokumenti/primeri iz domene CFP predznanje: a) - c) po strukturni analizi dobimo:

Simulacija konkretnega primera n učni primeri n učni algoritem (povezovalna pravila) n izluščimo pravila

Simulacija konkretnega primera n učni primeri n učni algoritem (povezovalna pravila) n izluščimo pravila n n n TITLE, DATE, LOC, PC_LIST, DATES, DAT_LIST, DL_TYP=L 2 (c=1) TOPICS, TOP_LIST -> TL_TYP=6 (c=1) LOC -> LOC_TYP=L 5 (c=2/3) OC, OC_LIST -> OCL_TYP=L 1 (c=1/2) … s pravili (nad pragom) gradimo ontologijo

Simulacija konkretnega primera n iz pravil generiramo ontologijo CFP COMITTEE - <h 2|h 3>

Simulacija konkretnega primera n iz pravil generiramo ontologijo CFP COMITTEE - <h 2|h 3> + LIST - kw={date} TITLE - <h#|b|i|title> D 1 - kw={workshop, conference, CFP} DATE D 2 D 3 TOPIC D 4 D 5 D 1: <h#|b|i> - <h 2|h 3> + LIST - kw={comittee} LOCATION - <h 2|h 3> + LIST - <h#|b|i> - kw= {topic, theme, area} ORGANIZE PROGRAM - kw={program} - kw={organize} D 2: kw={submission} NAME D 3: kw={notification} D 4: kw={camera ready} - pravila inducirana iz predznanja UNIVERSITY D 5: kw={abstract} CITY n zapis v formalen jezik (RDF, OWL) COUNTRY

Dileme n PREDZNANJE n n n pri kateri stopnji predznanja sistem začne funkcionirati? ali

Dileme n PREDZNANJE n n n pri kateri stopnji predznanja sistem začne funkcionirati? ali obstoječe ontologije kaj pripomorejo? UČENJE n kako izkoriščati strukturno indukcijo? n n poskus hevrističnega grupiranja za povezovalna pravila primernost sistema HYPER?

Delitev množice HTML oznak n tekstni nivo (vrstica) n n <font, tt, i, b,

Delitev množice HTML oznak n tekstni nivo (vrstica) n n <font, tt, i, b, big, small, sub, sup, em, strong, dfn, code, samp, kbd, var, cite, q, a> bločni nivo n <h#, address, p, pre, div, center, blockqoute, form, isindex, hr, table, caption, tr, th, ul, ol, li, dt, dd, br, frameset, body>

Slika 1 množica HTML dokumentov sistem ontologija AGOSD Shin. A* ontologija vhodni dokument odgovor

Slika 1 množica HTML dokumentov sistem ontologija AGOSD Shin. A* ontologija vhodni dokument odgovor

Slika 1 a skrbnik VUSP ontologija množica spletnih dokumentov AGOD vhodni dokumenti uporabnik Shin.

Slika 1 a skrbnik VUSP ontologija množica spletnih dokumentov AGOD vhodni dokumenti uporabnik Shin. A* ontologija odgovor

Slika 1 c skrbnik VUSP množica spletnih dokumentov množica okvirjev (F-Logic) AGOD Onto Broker

Slika 1 c skrbnik VUSP množica spletnih dokumentov množica okvirjev (F-Logic) AGOD Onto Broker odgovor ontologija vhodni dokumenti Shin. A* uporabnik odgovor

Slika 2 predznanje ontologija POSTOPKOVNI OPIS: HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje,

Slika 2 predznanje ontologija POSTOPKOVNI OPIS: HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …) a) s pomočjo predznanja procesiraj dokumente, izlušči relevantne tabele in jih pripravi za procesiranje/obdelavo b) obdelaj relevantne tabele (poravnava) c) uporabi obstoječe (splošne) ontologije za ugotavljanje/določanje semantike d) iz obdelanih tabel in določene semantike zgradi ontologijo - primerki konceptov

Slika 2 b predznanje HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …) ontologija

Slika 2 b predznanje HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …) ontologija POSTOPKOVNI OPIS: a) s pomočjo predznanja procesiraj dokumente, izlušči relevantne tabele in jih pripravi za procesiranje/obdelavo primerki konceptov b) obdelaj relevantne tabele c) uporabi obstoječe (splošne) ontologije za ugotavljanje/ določanje semantičnih kategorij d) iz obdelanih tabel in določene semantičnih kategorij zgradi ontologijo e) preslikaj ontologijo v formalizem F-Logic okvirji (jezik F-Logic)

Slika 3 Semantični 4 Semantično oplemenitenje FTM Funkcijski 3 Grajenje FTM HTML 2 Odkrivanje

Slika 3 Semantični 4 Semantično oplemenitenje FTM Funkcijski 3 Grajenje FTM HTML 2 Odkrivanje strukture 1 Čiščenje & Normalizacija vhod metodološki koraki Strukturni Fizični tabelarični model 4 Semantično oplemenitenje FMT dokument HTML 3 Grajenje FTM 2 Odkrivanje strukture 1 Čiščenje & Normalizacija vhod metodološki koraki Okvir Semantični Funkcijski izhod okvir F-Logic Strukturni Fizični tabelarični model izhod

4 Semantično oplemenitenje FMT tabela HTML vhod Funkcijski 3 Grajenje FTM metodološki koraki Fizični

4 Semantično oplemenitenje FMT tabela HTML vhod Funkcijski 3 Grajenje FTM metodološki koraki Fizični tabelarični model 4 Semantično oplemenitenje FMT tabela HTML 3 Grajenje FTM 2 Odkrivanje strukture 1 Čiščenje & Normalizacija vhod metodološki koraki okvir F-Logic Strukturni 2 Odkrivanje strukture 1 Čiščenje & Normalizacija Semantični Funkcijski izhod koncept F-Logic Strukturni Fizični tabelarični model izhod

Tour [ Code => ALPHANUMERIC; Date. Valid => DATE; Economic. Extension (Person. Class, Room.

Tour [ Code => ALPHANUMERIC; Date. Valid => DATE; Economic. Extension (Person. Class, Room. Class) => LARGE_NUMBER; Extended. Extension (Person. Class, Room. Class) => LARGE_NUMBER; ]. FORALL X, Y, P <- EXISTS T T: Tour[Economic. Extension@(X, Y) -> P]. X X X = = = adult, child, Y Y Y = = = single_Room, double_Room, extra_Bed, occupation, no_Occupation, extra_Bed, P P P = = = 35. 450; 32. 500; 30. 550; 25. 800; 23. 850; 22. 900; FORALL X <- EXISTS T T: Tour[Code@ -> X]. X = DP 9 LAX 01 AB; FORALL X, Y, P <- EXISTS T T: Tour[Code@ -> X and Date. Valid -> Y Extended. Extension@(adult, single_Room) -> P]. X = DP 9 LAX 01 AB, Y = 01. 05. 04 -30. 09. 04, P = 2. 510;

- FORALL X, Y, P <- EXISTS T T: Tour[Economic. Extension@(X, Y) -> P].

- FORALL X, Y, P <- EXISTS T T: Tour[Economic. Extension@(X, Y) -> P]. X X X = = = adult, child, Y Y Y = = = single_Room, double_Room, extra_Bed, occupation, no_Occupation, extra_Bed, P P P = = = 35. 450; 32. 500; 30. 550; 25. 800; 23. 850; 22. 900; - FORALL X <- EXISTS T T: Tour[Code@ -> X]. X = DP 9 LAX 01 AB; - FORALL X, Y, P <- EXISTS T T: Tour[Code@ -> X and Date. Valid -> Y a Extended. Extension@(adult, single_Room) -> P]. X = DP 9 LAX 01 AB, Y = 01. 05. 04 -30. 09. 04, P = 2. 510;