Korpuszok szegmentls s szfaji elemzs 2010 szept 14

  • Slides: 27
Download presentation
Korpuszok, szegmentálás és szófaji elemzés 2010. szept. 14.

Korpuszok, szegmentálás és szófaji elemzés 2010. szept. 14.

Korpusz: Nagy méretű szöveges adatbázis Annotáció: A szövegek szintaktikai és/vagy szemantikai információval történő kézi

Korpusz: Nagy méretű szöveges adatbázis Annotáció: A szövegek szintaktikai és/vagy szemantikai információval történő kézi jelölése (és kézi ellenőrzése) Például: • egy e-mail SPAM/HAM • a szöveg minden szava mellé jegyezzük fel annak szófaját

Annotáció formái • Egy fájlban a nyers szöveg és a jelölés (leggyakrabban XML) Megettem

Annotáció formái • Egy fájlban a nyers szöveg és a jelölés (leggyakrabban XML) Megettem egy <NE type=„étel”>Győri kekszet</NE> tegnap … • Standalone jelölés: külön fájlba kerül (hivatkozás az eredeti fájlbeli pozícióra) type begin end étel 14 28 Melyiknek mi az előnye?

Korpusz Jellemzők: • Természetes környezetben előforduló • Probléma-specifikus • Reprezentatív • Mintavételezésre alkalmas •

Korpusz Jellemzők: • Természetes környezetben előforduló • Probléma-specifikus • Reprezentatív • Mintavételezésre alkalmas • Gépileg feldolgozható Tehát korpusz a teljesen nyers szövegből álló adatbázis is…

Korpusz célja 1. Referencia halmaz Tesztelés Összemérés 2. Tanuló halmaz lásd jövő héten „gépi

Korpusz célja 1. Referencia halmaz Tesztelés Összemérés 2. Tanuló halmaz lásd jövő héten „gépi tanulás”…

Korpusz típusok • Jelölés szintje szerint: – dokumentum – minden szó – bizonyos információk

Korpusz típusok • Jelölés szintje szerint: – dokumentum – minden szó – bizonyos információk • Egynyelvű korpuszok • Párhuzamos korpusz • Beszédkorpusz

Néhány külföldi korpusz • Szöveg korpuszok British National Corpus (BNC), Wall Street Journal (WSJ),

Néhány külföldi korpusz • Szöveg korpuszok British National Corpus (BNC), Wall Street Journal (WSJ), Reuters ~ 100 millió szövegszó, dokumentumok, bekezdések jelöltek + Gigaword ~ 2 milliárd szó • Nyelvtani korpusz Penn Tree. Bank ~ 5 millió szó, szófajilag, teljes szintaxissal jelölt • Feladatorientált korpuszok Co. NLL, TREC, ACE, SEMEVAL ~ néhány százezer szó • Párhuzamos korpuszok Hansard (angol-francia), UN (angol-spanyol-francia) mondatszinten párhuzamosított

Magyar korpuszok • Szöveg korpusz: Szószablya ~600 millió szó • Szeged Tree. Bank (TEI

Magyar korpuszok • Szöveg korpusz: Szószablya ~600 millió szó • Szeged Tree. Bank (TEI 4) 1, 2 millió szó, szófajilag és szintaktikailag jelölt részei: Szépirodalom, Fogalmazások, Újságcikkek, Számítástechnikai szövegek, Jogi szövegek • Tulajdonnév korpusz: Szeged. NE korpusz • Párhuzamos korpuszok: Multi-East (angol-KKEu), Hunglish, Szeged. Paralell

Mondat szegmentálás • Mondat vége jelek: . ! ? • És ezek? „” -

Mondat szegmentálás • Mondat vége jelek: . ! ? • És ezek? „” - ; … • És a szövegtagolások? <h 1>Vérfürdő Sopronban</h 1>Sopronban… Jóska (kiabálva): Ne tedd! Pista: ÁÁÁÁÁÁÁ

Mondat szegmentálás • A „mondatvége jelek” állhatnak más szerepben is: Kovács és Társa kft.

Mondat szegmentálás • A „mondatvége jelek” állhatnak más szerepben is: Kovács és Társa kft. aláírta tegnap… • A „mondatvége jel és utána nagy betű” ~97% • Tagmondatok azonosítása… Aznap, amikor megláttam, őt, akit már évekkel azelőtt egyszer láttam, éppen azon gondolkodtam, hogy mi volt a kérdés akkor…

Például A Mersey-parti Vörösök a hazai vezetés után jobban odatették magukat, aminek eredményeként először

Például A Mersey-parti Vörösök a hazai vezetés után jobban odatették magukat, aminek eredményeként először Craig Bellamy a 38. percben - először még csak - az oldalhálóba fejelt, a játékrész lefújása előtt nem sokkal viszont már a gólvonal mögé tette a labdát: Steven Gerrard álompasszát a walesi csatár csukafejessel küldte kapura, de Victor Valdes kapus már csak bentről tudta kiemelte a labdát (Dirk Kuyt a biztonság kedvéért azért még a hálóba bombázott).

Szó szegmentálás • Szó határok azonosítása mindig van space? egy szó-e? Párizs-Dakar rally kínai:

Szó szegmentálás • Szó határok azonosítása mindig van space? egy szó-e? Párizs-Dakar rally kínai: • Probléma-specifikus: UDP-N-acetylglucosamine-2 -epimerase/N-acetylmann • Írásjelek eltávolítása … egy Győrit. -> Győrit … Társa kft. -> kft.

Például neeeee mar sracok, hol a link? ? ? leakarom tolteniiiiii : -/»

Például neeeee mar sracok, hol a link? ? ? leakarom tolteniiiiii : -/»

Nyílt tokenosztályok Nyílt osztály: nem sorolható fel 2007. február 22. kétezer-ötszáz kilóméter Felszíni jegyekkel

Nyílt tokenosztályok Nyílt osztály: nem sorolható fel 2007. február 22. kétezer-ötszáz kilóméter Felszíni jegyekkel könnyen kezelhető: telefonszám, dátum, e-mail cím, számok, mennyiségek stb. Szemantika szükséges: Tulajdonnevek (OTP Bank ZRt. )

Morfológia Morféma (wikipedia): „A morféma a nyelv legkisebb olyan egysége, amely önálló jelentést vagy

Morfológia Morféma (wikipedia): „A morféma a nyelv legkisebb olyan egysége, amely önálló jelentést vagy strukturális szerepet hordoz; a szó legkisebb értelmezhető része. ” Az agglutináló (ragozó) jelleg toldalékok halmozását is lehetővé teszi (a finnugor nyelvekhez, perzsa nyelvhez, baszk nyelvhez, az ókori sumérhez és a török nyelvhez hasonlóan). Szintén jellemző a többféle alakváltozat mind a szótövek, mind a toldalékok terén, a gazdag esetrendszer és az irányhármasság (honnan? hol? hová? ) a helyhatározók használatában.

Morfológiai elemzés • Szótő (lemma) meghatározás gyermekeimmel, nevess • Szófaj azonosítása • Ragok, képzők…

Morfológiai elemzés • Szótő (lemma) meghatározás gyermekeimmel, nevess • Szófaj azonosítása • Ragok, képzők… egyes/többes szám, személy, múlt idő stb MSD kódolás

Morfológiai elemzés • Ez az elemzés nem egyértelmű! fő - ige vagy főnév vagy

Morfológiai elemzés • Ez az elemzés nem egyértelmű! fő - ige vagy főnév vagy melléknév? nevet - név főnév tárgyesetben vagy ige? játékos - melléknév, főnév vagy játék|os bolt? eszem – az én agyam vagy eszek? • ismeretlen szavakon különösen izgalmas: Torgyán egy név vagy Torgy faluban?

Szófaji egyértelműsítés A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az

Szófaji egyértelműsítés A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az egész mondatot figyelembe véve kiválasztjuk a lehetséges elemzések közül a megfelelőt. Part of Speech Tagger (POS) – szófaji egyérteműsítő Példa XML fájl

Szabály alapú rendszerek Szakértői szabályrendszer (manuális) • HA … AKKOR … • állapotautomata Szegmentálás,

Szabály alapú rendszerek Szakértői szabályrendszer (manuális) • HA … AKKOR … • állapotautomata Szegmentálás, morfológiai elemzés általában szabály alapú

Magyar morfológiai elemző morphdb. hu nyelvi erőforrás

Magyar morfológiai elemző morphdb. hu nyelvi erőforrás

Ismeretlen szavak • Szótárban nincsenek felsorolva • guessing • összetett szavak vámtarifaszám, luxusmárka, műszerfalat

Ismeretlen szavak • Szótárban nincsenek felsorolva • guessing • összetett szavak vámtarifaszám, luxusmárka, műszerfalat • tulajdonnevek Torgyán, Szeged Mc. Donald’s, Adidas

TBL POS tagger Transformation Based Learning (TBL) A POS taggelés problémájára első sikeres megoldást

TBL POS tagger Transformation Based Learning (TBL) A POS taggelés problémájára első sikeres megoldást adó algoritmus (~95%) Adott egy transzformációs szabályhalmaz Tanítás: l Minden szabályra megnézzük milyen javítást hoz egy korpuszon l Elért javítás mértéke szerint sorrendbe rakjuk a szabályokat Predikció: l A mondat alapértelmezett jelölése l Szabályokat sorrendben végrehajtjuk

TBL POS tagger Szabályok például: Ha kettővel korábbi szó javasolt kódja X, a rákövetkező

TBL POS tagger Szabályok például: Ha kettővel korábbi szó javasolt kódja X, a rákövetkező szó ‘is’ és a lehetséges kódok listájában szerepel Y akkor írjuk át az aktuális kódot Y-ra. A szabály jóságának vizsgálatakor figyeljük, hogy hány helyen javít és hány helyen ront!

AT vár. V egy. M erődítmény. N. AT vár. N egy. T erődítmény. N.

AT vár. V egy. M erődítmény. N. AT vár. N egy. T erődítmény. N.

Valószínűségi POS taggerek

Valószínűségi POS taggerek

POS tagger kiértékelés Az esetek hány százalékában találta el jól. Kódolás milyen mélységű? 1.

POS tagger kiértékelés Az esetek hány százalékában találta el jól. Kódolás milyen mélységű? 1. Gold standard morfológiai kódok Mennyire jól tud választani? 2. Nyers szöveg Gépi morfológiai elemzés, nem 100%-os. Életszerűbb probléma.

Próbáld ki! http: //www. inf. u-szeged. hu/rgai/magyarlanc

Próbáld ki! http: //www. inf. u-szeged. hu/rgai/magyarlanc