Lexikogrfia ontolgik A szmtgpes nyelvfeldolgozs alapjai 2013 mrcius

  • Slides: 26
Download presentation
Lexikográfia, ontológiák A számítógépes nyelvfeldolgozás alapjai – 2013. március 28.

Lexikográfia, ontológiák A számítógépes nyelvfeldolgozás alapjai – 2013. március 28.

Bevezetés • Lexikográfia: szókincs (szavak és kifejezések) kutatása, gyakorlati szempontú leírása • Szótár: szavak

Bevezetés • Lexikográfia: szókincs (szavak és kifejezések) kutatása, gyakorlati szempontú leírása • Szótár: szavak (és jellemzőinek) gyűjteménye • Ontológia: Lételmélet? Tudás megosztása? Számítógépes szótár? Fogalmi háló?

Elektronikus szótárak • Hagyományos (papír)szótár • Elektronikus szótár – Könnyebb és gyorsabb a keresés

Elektronikus szótárak • Hagyományos (papír)szótár • Elektronikus szótár – Könnyebb és gyorsabb a keresés (szófaji információ is) – Toldalékolt alakok is megtalálhatók – Nincsenek terjedelmi korlátok

Többszavas kifejezések • Hol találhatók meg? – Alaptagnál, de nem egységes a lexikográfiai gyakorlat

Többszavas kifejezések • Hol találhatók meg? – Alaptagnál, de nem egységes a lexikográfiai gyakorlat – Melyik az alaptag? (kutya vagy szalonna) • Elektronikus szótárnál nem releváns kérdés

Ontológiák • Fogalmi hálók • Viszonyok alapján rendezett fogalmak (alá- és fölérendeltség, hierarchiák…) •

Ontológiák • Fogalmi hálók • Viszonyok alapján rendezett fogalmak (alá- és fölérendeltség, hierarchiák…) • Taxonómiák (pl. biológiai rendszertan) • Nyelvi ontológiák: nyelvi információt is tartalmaznak a hálón kívül

Word. Net • Lexikális adatbázis • Fogalmak hálóba rendezve különféle relációk alapján • Angol:

Word. Net • Lexikális adatbázis • Fogalmak hálóba rendezve különféle relációk alapján • Angol: Princeton Word. Net • Más nyelvekre is: Euro. Word. Net stb. • Synset: szinonimahalmaz

Princeton Wordnet • Eredetileg az emberi agy nyelvi tudásreprezentációjának modellje – Ennek szánták (inkább

Princeton Wordnet • Eredetileg az emberi agy nyelvi tudásreprezentációjának modellje – Ennek szánták (inkább elméleti nyelvészeti / filozófiai indíttatás) – Más, mint egy szótár – szavak szintjén redundancia • A legnagyobb, egységes lexikai adatbázis – Ingyenes • Gépileg feldolgozható információ – Számítógépes nyelvészet egyik alapvető eszköze lett

PWN mérete (3. 0) POS Unique strings Synsets Noun Verb Adjective Adverb 117798 11529

PWN mérete (3. 0) POS Unique strings Synsets Noun Verb Adjective Adverb 117798 11529 21479 4481 82115 13767 18156 3621 Total Word-Sense Pairs 146312 25047 30002 5580 Totals 155287 117659 206941 POS Average Polysemy Including Monosemous Words Excluding Monosemous Words Noun Verb 1. 24 2. 17 2. 79 3. 57 Adjective 1. 40 2. 71 Adverb 1. 25 2. 50

Szemléltető ábra

Szemléltető ábra

Euro. Word. Net • Sok nyelvre létezik – Eu. WN, Balka. Net, később csatlakozó

Euro. Word. Net • Sok nyelvre létezik – Eu. WN, Balka. Net, később csatlakozó (magyar), … • Ezek méretre nagyon változók (magyar 40 k synsettel a nagyobbak között) – XML adatformátum – Közös alapfogalmak 8516 fogalom • Közös javaslatok alapján • PWN-ben sok relációban szereplő csomópontok

Hu. WN Partnerek: • Szegedi Tudományegyetem Informatikai Tanszékcsoport • MTA Nyelvtudományi Intézet • Morpho.

Hu. WN Partnerek: • Szegedi Tudományegyetem Informatikai Tanszékcsoport • MTA Nyelvtudományi Intézet • Morpho. Logic Kft. Budapest Időtartam: 2005. február 1. - 2007. április 30. http: //www. inf. u-szeged. hu/rgai/Hu. WN

A Hu. WN bemutatása • 40000 synset (általános ontológia) + 2000 üzleti nyelvi synset

A Hu. WN bemutatása • 40000 synset (általános ontológia) + 2000 üzleti nyelvi synset (szakontológia) + 650 jogi nyelvi synset (szakontológia) • Főnevek • Igék • Melléknevek • Határozószók • Ahol csak lehet, a PWN-nek megfeleltetni a synseteket • Szerkesztéshez használt program: Vis. Dic

Szófaji eloszlás Szófaj Synsetek száma Főnév 33. 778 Ige 3. 310 Melléknév 4. 083

Szófaji eloszlás Szófaj Synsetek száma Főnév 33. 778 Ige 3. 310 Melléknév 4. 083 Határozószó 1. 038 Összesen 42. 209

Synsetek • Megközelítőleg azonos jelentésű szavak (literálok) alkotnak egy synsetet • Synseten belül a

Synsetek • Megközelítőleg azonos jelentésű szavak (literálok) alkotnak egy synsetet • Synseten belül a fő szervező reláció a szinonímia • Jelentésmegkülönböztetés miatt sorszámozott literálok • Példa: {zsineg 1, zsinór 1, madzag 1, spárga 1}

Synsetek - 2 • Szófaj • Szinonimák (literálok) • Definíció • Tipikus használat –

Synsetek - 2 • Szófaj • Szinonimák (literálok) • Definíció • Tipikus használat – példamondat • ÉKSz. -beli megfelelő • Domén • Relációk más synsetekkel

Relációk a Hu. WN-ben: főnevek • Alapvető rendező reláció a hipernima-hiponima • Alá- és

Relációk a Hu. WN-ben: főnevek • Alapvető rendező reláció a hipernima-hiponima • Alá- és fölérendeltségi viszonyokat mutató fák • Példa: bicikli Különböző szintű hiponimák: kutyaféle – emlős – állat – entitás

Relációk a Hu. WN-ben: főnevek - 2 • Antonímia (near_antonym): ellentét • Példa: férj

Relációk a Hu. WN-ben: főnevek - 2 • Antonímia (near_antonym): ellentét • Példa: férj – feleség • Holonímia – meronímia: rész-egész viszonyok • Példa: kalap – karima (rész) • újság – papír (anyag) • csatár – focicsapat (tag)

Melléknevek a Hu. WN-ben • Alapvető szemantikai kapcsolat: antonímia • Hideg – meleg, szép

Melléknevek a Hu. WN-ben • Alapvető szemantikai kapcsolat: antonímia • Hideg – meleg, szép – csúnya stb. • Központi literálok köré vannak összegyűjtve a hasonló jelentésű, specifikusabb melléknevek

Melléknévi relációk a Hu. WN-ben • Antonímia • also_see: hasonló jelentésű központi synset •

Melléknévi relációk a Hu. WN-ben • Antonímia • also_see: hasonló jelentésű központi synset • similar_to: hasonló jelentésű fokális „szatellit” synset • middle: hárompólusú melléknevek (alsó -felső-középső)

Főnevek és melléknevek közti relációk a Hu. WN-ben • pertains_to: adott főnév melléknévi, lexikalizált

Főnevek és melléknevek közti relációk a Hu. WN-ben • pertains_to: adott főnév melléknévi, lexikalizált párja (száj – orális) • partitions: csak adott (típusú) főnévre vonatkozhat (kialudt – inaktív – aktív vulkán)

Speciális igei relációk a Hu. WN-ben • Példa: FELMELEGSZIK • is_preparatory_phase_of: előkészítő folyamat (melegszik)

Speciális igei relációk a Hu. WN-ben • Példa: FELMELEGSZIK • is_preparatory_phase_of: előkészítő folyamat (melegszik) • is_telos_of: sikerpont (felmelegszik) • is_consequent_state_of: utóállapot (meleg)

Egyéb igei relációk • Antonímia: elad 1 – megvesz 1 • Hipernímia – hiponímia:

Egyéb igei relációk • Antonímia: elad 1 – megvesz 1 • Hipernímia – hiponímia: {szerez 4, kap 5, vesz 7 …} hiponimái bérel 1, megtalál 2, belebotlik 1, kölcsönvesz 1 stb.

Nyelvek közti relációk • eq_xpos_synonym: ha az angolban és a magyarban eltérő szófaj fejezi

Nyelvek közti relációk • eq_xpos_synonym: ha az angolban és a magyarban eltérő szófaj fejezi ki ugyanazt a fogalmat, ezért közvetlenül nem feleltethetők meg egymásnak fél (ige) – afraid (melléknév)

Mire jó a Word. Net? • Szinonimalisták • WSD: jelentések előre meg vannak adva

Mire jó a Word. Net? • Szinonimalisták • WSD: jelentések előre meg vannak adva • Dokumentumosztályozás: szavak közti relációk • Többnyelvű IE • Gépi(leg segített) fordítás: nyelvek közti megfeleltetések