Lexikogrfia ontolgik A szmtgpes nyelvfeldolgozs alapjai 2013 mrcius
- Slides: 26
Lexikográfia, ontológiák A számítógépes nyelvfeldolgozás alapjai – 2013. március 28.
Bevezetés • Lexikográfia: szókincs (szavak és kifejezések) kutatása, gyakorlati szempontú leírása • Szótár: szavak (és jellemzőinek) gyűjteménye • Ontológia: Lételmélet? Tudás megosztása? Számítógépes szótár? Fogalmi háló?
Elektronikus szótárak • Hagyományos (papír)szótár • Elektronikus szótár – Könnyebb és gyorsabb a keresés (szófaji információ is) – Toldalékolt alakok is megtalálhatók – Nincsenek terjedelmi korlátok
Többszavas kifejezések • Hol találhatók meg? – Alaptagnál, de nem egységes a lexikográfiai gyakorlat – Melyik az alaptag? (kutya vagy szalonna) • Elektronikus szótárnál nem releváns kérdés
Ontológiák • Fogalmi hálók • Viszonyok alapján rendezett fogalmak (alá- és fölérendeltség, hierarchiák…) • Taxonómiák (pl. biológiai rendszertan) • Nyelvi ontológiák: nyelvi információt is tartalmaznak a hálón kívül
Word. Net • Lexikális adatbázis • Fogalmak hálóba rendezve különféle relációk alapján • Angol: Princeton Word. Net • Más nyelvekre is: Euro. Word. Net stb. • Synset: szinonimahalmaz
Princeton Wordnet • Eredetileg az emberi agy nyelvi tudásreprezentációjának modellje – Ennek szánták (inkább elméleti nyelvészeti / filozófiai indíttatás) – Más, mint egy szótár – szavak szintjén redundancia • A legnagyobb, egységes lexikai adatbázis – Ingyenes • Gépileg feldolgozható információ – Számítógépes nyelvészet egyik alapvető eszköze lett
PWN mérete (3. 0) POS Unique strings Synsets Noun Verb Adjective Adverb 117798 11529 21479 4481 82115 13767 18156 3621 Total Word-Sense Pairs 146312 25047 30002 5580 Totals 155287 117659 206941 POS Average Polysemy Including Monosemous Words Excluding Monosemous Words Noun Verb 1. 24 2. 17 2. 79 3. 57 Adjective 1. 40 2. 71 Adverb 1. 25 2. 50
Szemléltető ábra
Euro. Word. Net • Sok nyelvre létezik – Eu. WN, Balka. Net, később csatlakozó (magyar), … • Ezek méretre nagyon változók (magyar 40 k synsettel a nagyobbak között) – XML adatformátum – Közös alapfogalmak 8516 fogalom • Közös javaslatok alapján • PWN-ben sok relációban szereplő csomópontok
Hu. WN Partnerek: • Szegedi Tudományegyetem Informatikai Tanszékcsoport • MTA Nyelvtudományi Intézet • Morpho. Logic Kft. Budapest Időtartam: 2005. február 1. - 2007. április 30. http: //www. inf. u-szeged. hu/rgai/Hu. WN
A Hu. WN bemutatása • 40000 synset (általános ontológia) + 2000 üzleti nyelvi synset (szakontológia) + 650 jogi nyelvi synset (szakontológia) • Főnevek • Igék • Melléknevek • Határozószók • Ahol csak lehet, a PWN-nek megfeleltetni a synseteket • Szerkesztéshez használt program: Vis. Dic
Szófaji eloszlás Szófaj Synsetek száma Főnév 33. 778 Ige 3. 310 Melléknév 4. 083 Határozószó 1. 038 Összesen 42. 209
Synsetek • Megközelítőleg azonos jelentésű szavak (literálok) alkotnak egy synsetet • Synseten belül a fő szervező reláció a szinonímia • Jelentésmegkülönböztetés miatt sorszámozott literálok • Példa: {zsineg 1, zsinór 1, madzag 1, spárga 1}
Synsetek - 2 • Szófaj • Szinonimák (literálok) • Definíció • Tipikus használat – példamondat • ÉKSz. -beli megfelelő • Domén • Relációk más synsetekkel
Relációk a Hu. WN-ben: főnevek • Alapvető rendező reláció a hipernima-hiponima • Alá- és fölérendeltségi viszonyokat mutató fák • Példa: bicikli Különböző szintű hiponimák: kutyaféle – emlős – állat – entitás
Relációk a Hu. WN-ben: főnevek - 2 • Antonímia (near_antonym): ellentét • Példa: férj – feleség • Holonímia – meronímia: rész-egész viszonyok • Példa: kalap – karima (rész) • újság – papír (anyag) • csatár – focicsapat (tag)
Melléknevek a Hu. WN-ben • Alapvető szemantikai kapcsolat: antonímia • Hideg – meleg, szép – csúnya stb. • Központi literálok köré vannak összegyűjtve a hasonló jelentésű, specifikusabb melléknevek
Melléknévi relációk a Hu. WN-ben • Antonímia • also_see: hasonló jelentésű központi synset • similar_to: hasonló jelentésű fokális „szatellit” synset • middle: hárompólusú melléknevek (alsó -felső-középső)
Főnevek és melléknevek közti relációk a Hu. WN-ben • pertains_to: adott főnév melléknévi, lexikalizált párja (száj – orális) • partitions: csak adott (típusú) főnévre vonatkozhat (kialudt – inaktív – aktív vulkán)
Speciális igei relációk a Hu. WN-ben • Példa: FELMELEGSZIK • is_preparatory_phase_of: előkészítő folyamat (melegszik) • is_telos_of: sikerpont (felmelegszik) • is_consequent_state_of: utóállapot (meleg)
Egyéb igei relációk • Antonímia: elad 1 – megvesz 1 • Hipernímia – hiponímia: {szerez 4, kap 5, vesz 7 …} hiponimái bérel 1, megtalál 2, belebotlik 1, kölcsönvesz 1 stb.
Nyelvek közti relációk • eq_xpos_synonym: ha az angolban és a magyarban eltérő szófaj fejezi ki ugyanazt a fogalmat, ezért közvetlenül nem feleltethetők meg egymásnak fél (ige) – afraid (melléknév)
Mire jó a Word. Net? • Szinonimalisták • WSD: jelentések előre meg vannak adva • Dokumentumosztályozás: szavak közti relációk • Többnyelvű IE • Gépi(leg segített) fordítás: nyelvek közti megfeleltetések
- Rendezvényszervezés gyakorlati feladatok
- Gyökér irén menedzsment alapjai
- Diszjunktív sorszámos alak
- Kettős könyvelés alapjai
- Kontraaktív számla
- Párkeltés
- Cnc programozás
- Webprogramozás alapjai
- Repülés fizikai alapjai
- Ekg alapjai
- Tömegspektrometria alapjai
- Bérszámfejtés menete
- Bérszámfejtés alapjai
- Kovácsolás alapjai
- Font
- Cnc maró program
- Turisztikai termékek csoportosítása
- Táblázatkezelés alapjai
- Az immunológia alapjai pdf
- Krajlic mátrix
- Síkesztergálás
- Co2 hegesztés alapjai
- Informatikai biztonság alapjai
- Krajlic-mátrix
- Memories (2013)
- Titi 2013
- Lync 2013 features