Informcielmleti szempontok a tbbmorfms magyar szavak feldolgozsnak rtelmezsben
Információelméleti szempontok a többmorfémás magyar szavak feldolgozásának értelmezésében Előadás a Magyar Nyelvtudományi Társaság Általános Nyelvészeti Szakosztályában 2011. Október 19 Pléh Csaba BME Kognitív Tudományi Tanszéke és CEU Dep of Cognitive Sceince pleh@cogsci. bme. hu Németh Kornél, Varga Dániel, Fazekas Judit és Várhelyi Klára közreműködésével
Csaba Kornél Dani Klára Judit Entrópia Gating Priming Lex. Dec
Áttekintés • Az információelmélet karrierje a pszicholingvisztikában • A magyar főnevek entrópia szempontú elemzése • Gating a magyar tőszavak felismerésében • Szó eleje hatások • Morfológiai komplexitás és entrópia a szódöntésekben
A nyelvészeti információelméleti érdeklődés szakaszai • Korai lelkesedés: Nyelvészeti kritika a statisztika Visszajön a statisztika • 1950 Shannon 1960 Chomsky 1990 Kostic • Miller G. Miller Bayern Saffran
Információelméleti észlelés kutatás • G. A. Miller • Zaj és észlelés • Expoziciós idő és felismerés
Kiterjesztve a nyelvre • Értelmességhatás • Szavak és mondatok • Statisztikai közelítés szintje
Korai felvetések az információs alapú morfológiáról • Antal László (1964) a szó • igaz-ság-os-ak-at testében az általános tendencia az entrópia fokozatos csökkenése. Morfémahatáron megszakad ez a csökkenés
Miller és Chomsky megfordítják a trendet: mindez legfeljebb egy gyenge Markov modell • A Chomsky hierarchia és a • • pszicholingvisztika Nemcsak a nyelvtanra, hanem a nyelvi viselkedésre is algebrai modell kell Abból is nem akármilyen Véges állapotú nem elég Az ellenérdekeltek szerint igen, ha a gráf ágaihoz valószínűségeket rendelünk
A viselkedés és nyelvi modell • A nyelv minden viselkedés analógiája lesz • Valójában a belső reprezentáció modellje • De modellje a feldolgozásnak is • Ami approximations to English volt, most grammatikalitás lesz
Mi történik ma? Induljunk ki a főnevek szerkezetéből emberünknek emberünkétől emberünkéihez embereinkkel embereinknek emberenként emberhez embertől emberig emberék Számok rendelhetőek hozzá Elágazás szám token és type entrópia Eltérő döntési pontokon
A szófelismerés modelljei Cohort-modell - hallott szavak felismerése már az első szótag alapján • Mc. Clelland & Rummelhart (1981) – vizuális felismerési modella versengésről • Marslen-Wilson (1987) • Kompatibilis szavak automatikus aktivációja • Kiválasztás • összefüggő szöveg – erős igazodás • izolált szavaknál & értelmetlen szövegek – kevesebb az elvárási hatás
GATING – a paradigma • Bevett szófelismerés vizsgáló eljárás • Nincsenek magyar adatok • Jól kontrollálható változók • Francois Grosjean (1980) – melyek a szófelismerés kritikus pontjai? – személy szavakból hallgat egyre nagyobb részeket – Hatások: • Gyakoriság (gyakoribbak – rosszabb teljesítmény) • Szóhosszúság (hosszabb szavak rosszabb teljesítmény) • Kontextus (mondatba foglalva jobb a teljesítmény) – a növekvő, sorozatszerű, inkrementális bemutatásnak nincs hatása (Cotton és Grosjean, 1984)
Ingerek 60 szó a szószablyából 30 ritka (<152; ~67, 23) 15 korai egyediségi pontú 15 késői egyediségi pontú 30 gyakori (>11982; ~55770) 15 korai egyediségi pontú 15 késői egyediségi pontú
gyakoriság Lemmagyak. böllér cécó csöbör dunna dzsúdó güzü gyűszű kégli lucsok nábob pőcsik rücsök sasszé üzér zsepi bögöly cinke dublőr krokett pányva pincsi polka pöröly rozmár stóla trojka tartár stangli strázsa svindli 86 191 3 böll 0, 603096 112 196 3 cécó 0 63 151 3 csöb 77 186 3 dunn 0, 652352 128 173 3 dzsú 1, 139827 168 172 3 güzü 0, 583207 57 166 3 gyűs 1, 472454 0 entrópia K o r a i 66 181 3 kégl 66 156 3 lucs 121 174 3 nábo 6 7 3 pőcs 8 45 3 rücs 0, 49999 34 128 3 sass 1, 849419 14 34 3 üzér 0, 443576 63 151 3 zsep 0 90 161 5 bögö 0 3 185 5 cink 1, 948223 21 82 5 dubl 1, 594457 46 160 5 krok 1, 383661 28 114 5 pány 1, 231779 15 108 5 pinc 2, 014432 100 168 5 polk 0, 289986 43 164 5 pörö 1, 022923 80 188 5 rozm 0, 560543 62 187 5 stól 93 159 5 troj 0, 777575 0 0 K é s ő i 0 0 48 80 6 tart 3, 096681 17 67 7 stan 1, 35673 152 150 350 198 7 7 strá svin 1, 783065 1, 001279 Egyed. pont Első 4 szó gyakoriság Lemmagyak. asszony fórum szoftver utca pápa szféra tonna üveg kenyér típus műsor ablak dollár ünnep japán család kérdés oldal személy tanár válasz város tanács termék csapat verseny század osztály nemzet vizsga 50211 87569 2 assz 1, 540912 167634 416906 3 fóru 0 31974 71251 3 szof 0, 076625 50381 141877 3 utca 1, 019915 25598 34252 3 pápa 1, 069351 11602 26148 3 szfé 0, 045589 11982 18232 3 tonn 0, 597695 12906 28887 3 üveg 3, 004682 10883 33280 3 keny 1, 081985 13921 52944 3 típu 1, 068367 17263 76473 3 műso 1, 100964 19222 70943 3 abla 0, 837288 13876 38662 3 doll 0, 028648 12579 50454 2 ünne 2, 838832 17879 36339 3 japá 0, 213908 71077 218999 5 csal 2, 471073 133771 573154 5 kérd 1, 426039 104786 487728 5 olda 0, 752174 103517 292109 5 szem 4, 187367 103452 207561 5 taná 2, 713847 71364 210854 5 vála 3, 116823 171466 337930 5 váro 1, 767857 95137 182986 5 taná 2, 713847 52327 203634 5 term 3, 705582 52767 137308 5 2, 467515 59557 147910 6 csap vers 3, 02390 2, 25829 RIT A 0 O AK GY RI Egyed. pont Első 4 szó entrópia 70603 148126 5 száz 39483 131650 5 oszt 3, 42107 6 nemz 2, 381595 5 vizs 2, 54094 42976 32912 81750 93346
A gyakorlatban • Kapuk – – – 90 ms 120 ms 210 ms 300 ms 390 ms Inkrementális bemutatás • A szavak sorrendje random • Ha helyes volt egy adott kapunál a válasz (KV regisztrálja a RI mérést követően (csak 2. kísérlet) – SRB, mikrofon), akkor ugrik a következő szó 1. kapujára (90 ms) • Konfidencia döntés 1 - egyáltalán nem biztos 2 - inkább nem biztos 3 - inkább biztos 4 - teljesen biztos
Gating – a szógyakoriság és az egyediségi pont hatása a szófelismerésre 90 120 210 300 390 (ms) • Gyakori – korai • Gyakori – késői • Ritka – korai • Ritka – késői ablak nemzet böllér tartár
I. Kísérlet - pontosság Helyes válaszok (%) 100% Ritka Korai 90% Ritka Késői 80% Gyakori Korai 70% Gyakori Késői 60% 50% 40% 30% 20% • • • Gyakoriság főhatás Egyediségi Pont főhatás Kapu főhatás • • • Gyakoriság X Egyediségi Pont Gyakoriság X Kapu Egyediségi Pont X Kapu • Gyakoriság X Egyediségi Pont X Kapu 10% 0% G_90 G_120 G_210 G_300 G_390 51 résztvevő; 20 férfi (21, 12 év, SD=1, 37) és 31 nő (20, 41 év, SD=0, 97) p<0, 001
I. Kísérlet - konfidencia 3. 0 2. 8 2. 6 • • • Gyakoriság főhatás Egyediségi Pont főhatás Kapu főhatás • • • Gyakoriság X Egyediségi Pont Gyakoriság X Kapu Egyediségi Pont X Kapu • Gyakoriság X Egyediségi Pont X Kapu Konfidencia 2. 4 2. 2 2. 0 1. 8 Ritka Korai 1. 6 Ritka Késői 1. 4 Gyakori Korai 1. 2 Gyakori Késői 1. 0 G_90 G_120 G_210 G_300 G_390 p<0, 001
Összeségében • Egy szótag elég a felismeréshez pl. megfelelően a kohorsz elméletnek • Minél korábbi az egyediség, annál korábbi a felismerés • Gyakoriság segít • Ritka szavak inkább alulról-felfelé • Nyelvtani és fonotaktikai megszorítás is segít
Gating és entrópia • Prefixtypeoccurenceslog: Az adott prefixummal kezdődő szótárban előforduló szavak számának 2 -es alapú logaritmusa • prefixfreqlog: Az adott prefixummal kezdődő, szótárban előforduló tokenek számának 2 -es alapú logaritmusa • entrópia – A webkorpusz feltételes entrópiája, adott prefixum feltételezése mellett. Informálisan, a fennmaradó bizonytalanságunk mértéke, amikor egy ismeretlen szó egy adott kezdőszeletét már megismertük. • entropychange – az entrópia csökkenése az előző kapuhoz képest (1. kapunál nincs értelmezve).
Felhasznált MOKK korpusz Korpusz Oldal (millió) token (millió type (millió) Teljes 3, 5 1486 19, 1 60% Idegen kiiktat 3, 125 1310 15, 4 92% Csak diakritikus 1, 918 928 10, 9 96% Elütés mint a normálban 1, 221 589 7, 2
Gating és entrópia Entrópia Z_score -0. 5 1. 0 ritka hibás 0. 8 gyakori helyes 0. 6 Entrópia Z_score -0. 4 -0. 6 -0. 7 -0. 8 0. 4 0. 2 0. 0 -0. 2 -0. 4 -0. 6 -0. 9 -0. 8 -1 -1. 0 korai késői • Egyediségi pont főhatás • Gyakoriság X Egyediségi pont interakció G_90 G_120 G_210 G_300 G_390 • Gate főhatás • ACC főhatás • Gate X ACC interakció p<0, 001
II. Kísérlet • GATING – Megszorítás Főnév – megszorítás nélkül • „On-line” feldolgozáshoz közelebb áll – RT (response box – mikrofon) – Konfidencia-ítélet (1 -2 -3 -4) • Résztvevők – 14 fő (7 férfi (28, 16 év, SD=14, 05), 7 nő (28, 0 év, SD=13, 14)) • Ingerek (Instrukció) – Ugyanaz, mint az 1. kísérletben
Az instrukció Szavak részleteit fogod hallani. A feladatod, hogy kitaláld, mi lehet a szó. CSAK RAG NÉLKÜLI KÉTSZÓTAGOS FŐNEVEK lehetnek. Azt is meg kell mondd a válasz után, hogy mennyire vagy biztos abban, hogy a tipped helyes volt. Minden elhangzott részlet után válaszolnod kell és biztossági ítéletet kell hoznod, de mindig csak az aktuális elhangzott részletre vonatkozóan. Indulhat a feladat? (Tedd fel a fülhallgatót!)
Felülről-Lefelé hatások • Le lehet-e szűkíteni egy adott csoportra a keresést?
Pontosság • A korai egyediségi pontúak esetén a kisebb kapuknál segít, a megszorítás • A megszorítás a pontosságot a késői egyediségi pontú ingerek esetén növeli (gyakoriságtól függetlenül)
Reakcióidő • a megszorítástól lassabbak lesznek a reakcióidők függetlenül a gyakoriságtól és az egyediségi ponttól. • a ritka szavaknál egyediségi ponttól függetlenül a legkisebb kapu esetén nem volt helyes válasz – így itt nincs RI sem.
Konfidencia • A megszorítás a gyakori-késői egyediségi pontú szavak esetén a hosszabb kapuktól (210+) kezdve csökkenti a biztossági ítéletet
Entrópia és egyediségi pont Entrópia akkor is szignifikáns, ha az egyediségi pont és a gyakoriság ellenőrzött
Entrópia magasabb a gyakori szavaknál Egyediségi pont: csökkent entrópia
Gating • Az entrópia jó közelítője a szófelismerés pontosságának • A top-down megszorítás növeli a pontosságot, de lassítja a válaszadást • Reakcióidők összevetése az entrópia-mutatókkal
A szavak eleje számít Fazekas szövegjavítási feladat Eleje – vége jó Eleje jó Vége jó Ha egy pinaglló A nő nyumlogaar A ágmany acsk mbengbereti a vákgyi. A sesűrkeéget üszl és sznyráát Pgenbiken, házsagaás aszőrekot. Max az akár tdoánrot is elrtotmol, a láany enm thite nolva, getheszejrt kamkdioasz- ő ohgy a ajsát őrbén Amikerában. eregy kevbéés lkel Vinalgkábun mdenin tajallá a hetlyé, és taszegpamtalnia mninnedel úgy ézir, zet. Jó arzsu olvt, öfüsszegg, menidn rdviöidőre mujszá kai glodoban él a cseketüedlenk tálvo keneirlü a leséefge és abápjalan vtja hétkölótpaijzan. álksinya lelmett. A áltoztatha meg a Eztré fodjaag el jvöőt. Még egy bajatrá elzépeklni is reémes, megtáváhí, aknike van egy kis motjeel
A szavak rekonstrukciója sikeresebb, ha mind a szó eleje mind a vége helyesen van leírva
Az előfeszítési helyzet RPOBLÉMA PROBLÉMA
Előfeszítési hatás a kezdetnél: A rontott szó lelassít az elején és a végén AM OB LÉ ÉA PR LM MA PR OB BÉ PR OL PO RB LÉ MA Várhelyi Klára
Döntések hosszú sok morfémás szavaknál: Pléh és Juhász 1995 bathtub effect Aithchison
Hasonló szavak, mint a gatingnél Böllár Tő Böllér-ak bölléruk Jel Böllér-nak böllér-nuk Rag Böllér-ak-nek böllér-uk-nek Jel belül
A vizsgálati anyag alapja • 60 kétszótagú főnév, Gyakori Németh Kornél gating Korai kenyér, vizsgálata alapján műsor • Forrás: MOKK korpusz Késői város , (www. szoszablya. hu) csapat • 4 csoport egyediségi pont és gyakoriság alapján Ritka böllér , gyűszű pincsi , krokett
A ragozott szavak • Előfordulások: csak tő, jel, rag vagy jel és rag • Rontás a tőben (kunyérem) a jelben (kenyérid) vagy a ragban (kenyeredbun) • Létező, de rosszul illesztett (kenyérim) vagy nem létező toldalékok (kenyérum) kenyérnek kenyérben kenyérre kenyerek kenyerak/ kenyerik kenyerem kenyeram/ kenyerim kenyerad/ kenyered kenyerid kenyereknek kenyeraknek/ kenyeriknek kenyerekben kenyerakben/ kenyerek kenyerakra/ kenyeriken re kenyerikra kenyeremnek kenyeramnek/ kenyeramben kenyere kenyerimnek kenyeremben /kenyerimben mre kenyerednek kenyeradnek/ kenyeridnek kenyeredben kenyeramra/ kenyerimre kenyeradben/ kenyered kenyeradra/ kenyeridben re kenyeridra
A vizsgálat felépítése • 72, 18 és 34 év közötti résztvevő a Budapesti Műszaki Egyetem hallgatói közül • 44 (átlag életkor: 21, 41 év) nő és 28 (átlag életkor: 21, 75 év) férfi • Minden kísérleti személy döntést hozott az összes szóról, az ingerek fele létező, fele nem létező szó volt • A szavak egy fixációs kereszt felvillanása után jelentek meg és a kísérleti személyek az i (létező) és r (nem létező) billentyűk segítségével válaszoltak
Eredmények – helyes válaszok ritka gyakori • Mind a gyakoriság mind a hibatípus hatása szignifikáns • A szó gyakorisága és a hibatípus felismerésének gyakorisága között is szignifikáns korreláció figyelhető meg • Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb
Eredmények - reakcióidők ritka gyakor i • Mind a gyakoriság, mind a hibatípus hatása szignifikáns • A létező szavak elfogadása lassabb, mint a nem létezők elutasítása • A nem létező tövek elutasítása lassabb, mint a nem létező toldalékoké • Nincs egyértelmű fürdőkád hatás • A két magánhangzó harmóniát sértő hibatípus közt nincs különbég, viszont ezekhez képest a nem létező toldalékok elutasítása gyorsabb
Szóközepén előforduló rontások gyakori szavaknál Gyakori Reakcióidő Helyes válaszok • Gyorsabb reakcióidő, de gyakoribb hibázások • Lehet egy optimalizálási mechanizmus eredménye
A rontás alattomossága • A rontás előtt lévő 4 karakter előfordulási gyakorisága a MOKK korpuszban, pl. : bölléred - böllérud léru-782 előfordulás lére-75283 előfordulás • A két szám hányadosának logaritmusa (ngram-faktor) határozza meg a rontás alattomosságának a mértékét
Eredmények – a rontás alattomossága A rontás alattomossága minden hibatípus esetében segít a rontások felismerésének bejósolásában • Az ngram-faktor fordítottan korrelál az alattomossággal • Minél ritkábban fordul elő a rontás előtti betűnégyes az eredeti betűnégyeshez képest, annál kevésbé alattomos a rontás • Minél kevésbé alattomos a rontás annál nagyobb eséllyel veszik észre • A kategoriánként elvégzett repeated measures Anova formálisan is
Összefoglalás • A gyakoriság és a hibatípus hatása és ezek kapcsolata mind a helyes válaszok, mind a reakcióidők tekintetében szignifikáns • Minél később fordul elő a hiba a szóban, elutasítása annál könnyebb és gyorsabb • A két magánhangzóharmóniát sértő hibatípus közt nincs különbség, viszont ezekhez képest a nem létező toldalékok elutasítása lassabb • Minél alattomosabb egy hiba, annál kisebb eséllyel kerül elutasításra
Merre tovább? • Döntések és idők korreláltatása a versengő alakokkal • Entrópia mutatók. Ez elég problémás hiszen a hosszú szavak végére 0 -ra csökken az entrópia • Tövek és végződések entrópia kombinálása
Összefoglalva • A szókezdet kiemelkedő jelentősége a hozzáférésben a magyarban is nyilvánvaló • A szófelismerés érzékenyebb az entrópia értékekre és az alaktani szerkezetre mint magára a gyakoriságra • Az entrópia változás fontos a szomszédsági hatások értelmezésében
Köszönöm a figyelmet és a türelmet
- Slides: 49