Norsk andresprkskorpus ASK Samarbeid Norsk Sprktest Aksis Nordisk
Norsk andrespråkskorpus (ASK) Samarbeid • Norsk Språktest • Aksis • Nordisk institutt, Ui. B (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet
Norsk Språktest • Samarbeid Folkeuniversitetet (adm. /øk. ) og Ui. B (faglig) • Arrangerer: – Språkprøven i norsk for voksne innvandrere • Avsluttende prøve for den offentlige grunnopplæring • Arrangeres 3 ganger i året minst ett sted i hvert fylke • Lese- og lytteforståelse, skriftlig og muntlig prøve – Test i norsk - høyere nivå (Bergenstesten) • Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter • Muntlig: for helsepersonell
Språkprøven • 2001: 2309 kandidater (63% kvinner), 62% bestått • 2002: 2593 kandidater (65% kvinner), 60% bestått • 2003: 3174 kandidater (63% kvinner), 58% bestått • 2003: 106 forskjellige land, 103 ulike morsmål • Skriftlig prøve: forklarende eller fortellende • Ca. 240 ord
Høyere nivå (Bergenstesten) • 2001: 998 kandidater • 2002: 1129 kandidater • 2003: 1286 kandidater • Skriftlig prøve: forklarende, fortellende eller argumenterende • Ca. 450 ord
Eksempel på oppgaver (Språktesten) Skriv en tekst om: • • • • adopsjon alkoholvaner barneoppdragelse en bok du har lest det du mener er viktige verdier i livet din første jobb ditt møte med norsk kultur en eller flere nyheter som har gjort inntrykk på deg en forfatter og en bok han/hun har skrevet en hyggelig opplevelse du har hatt en interesse du har en kjent person en person som har betydd mye for deg
Eksempel på oppgaver (Bergenstesten) Skriv ett av følgende leserbrev til en lokalavis: 1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet; eller 2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.
Persondata • Norsk Språktest har lagret persondata i SPSS • Opplysninger kodes, verdi tallkode • Kodebok v 14 timer Timer i grunnopplæring Value Label 1 under 200 2 200 -400 3 401 -500 4 501 -850 5 851 -1500 6 1501 -2000 7 2001 -3000
Persondata Kandidatnummer Testdato Nivå på testen Hjemland Morsmål Alder Kjønn Engelsknivå Skolegang utenfor Norge Antall skoleår utenfor Norge Hva gjør du i Norge Yrke i Norge Tid i Norge (antall år) Timer i grunnopplæring Antall mnd. siden start på norskkurs Hvor har du gått på kurs Hva skal du bruke prøveresultatet til: skole Bruke: arbeid Bruke: dokumentere Bruke: annet Hvor ofte snakker du norsk utenfor klasserommet Har du sosial omgang med nordmenn? Omgang med norske på fritiden Omgang med norske på jobben/skolen
Yrke i Norge Value 1 2 3 4 5 6 7 8 9 10 11 Label helsearbeid kontorarbeid manuelt arbeid servicenæring opplæring/undervisning transport politi, toll, brann kultur hjemmeværende annet akademisk yrke
Korpus og utvalg • Utvalg av språk – Spredning etter type språk – Må ha nok besvarelser, alle må ha bestått • Utvalg innen språk – Samme type oppgave • 10 språk – 100 besvarelser innen hvert språk – Både Språkprøven og Høyere nivå • Kontrollgruppe – Nordmenn, fra kor og idrettslag etc.
Problemer vedrørende utvalg • Ønsket flere/andre morsmål, men ikke nok antall • Ulik fordeling av morsmål i de to testene • Skjev kjønnsfordeling – Russisk, polsk : 90 -95% kvinner • Ønsket flere besvarelser, men ikke økonomi • Ønsket muntlig prøve, men ikke økonomi
Valgte morsmål • • • Albansk Engelsk Nederlandsk Polsk Russisk Serbokroatisk Somali Spansk Tysk Vietnamesisk
Feilbegrepet • • Problematisk med begrepene ”feil” og ”korrekt form” Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ” Andre termer: avvik, løsning (kilde) L 1 interlanguage L 2 (mål) Feil viser hvorledes språket blir lært Det å gjøre feil er en måte å teste ut målspråket Grader av feil, ikke lett å avgjøre hva som er rett
Bakgrunn for feilkoder ASK Studerte feilkoder i tre større prosjekter ICLE (International Corpus of Learner English) (tag) feil $rett$ (feil eller rett kan være 0) He took the books (QL) and $, $ the records and the computers. FRIDA (French Interlanguage Database) corpus. <type><subtype><ordklasse>#rett$feil</. . ></type> très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G> Cambridge Learner Corpus <#CODE>wrong word|corrected word</#CODE> He died <#MP>we|. We</#MP> buried him the next day.
ASK feilkoder • • • Enkelt system slik at kodingsfeil unngås Grammatisk informasjon annoteres automatisk (senere) Velger retting som krever minst forandringer Har kodemanual med eksempler Systematisk sjekk av koding (ved konkordans) • Bruker TEI sic tag med ekstra attributter • <sic type=type desc=undertype corr=rett>feil</sic> • Det kan være flere feilmarkeringer til et ord (men ikke overlapp)
ASK feilkoder 5 hovedgrupper – – – Leksemfeil Morfologifeil Syntaksfeil Tegnsettingsfeil Uidentifiserbar feil
ASK feilkoder: Leksemfeil • • • W ORT PART SPL DER CAP • FL galt ord ortografisk feil samskrivningsfeil, avledningsfeil særskrivningsfeil gal avledning galt valg av stor/liten bokstav ord fra andre språk enn norsk
ASK feilkoder: Leksemfeil • • W ORT PART SPL DER CAP FL Fra min mening. . . (Etter) Kun i ordets grunnform (ikke bøying) etterhvert (etter hvert) sove rom (soverom) stillighet (stillhet) europa (Europa) lettere å resolvere problemer (løse)
ASK feilkoder: Morfologifeil • F (galt valg av morfosyntaktisk bøyningsform) – Hvilken miljø skal man bo. (Hvilket) –. . og ikke så lang fra sentrum (langt) – Det var jo ham som har betydd absolutt mest (er) • INFL (feil form der intensjonen er riktig morfosyntaktisk kategori) – har mye trafikker og bråker (trafikk og bråk) – Vi hald kontakten (holdt)
ASK feilkoder: Syntaksfeil • M (et ord eller en frase mangler) – Vi hilser ___ hverandre når vi. . (mangler på) • R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) – Etter ti dager senere giftet. . . (senere redundant) • O (ord eller fraser står i gal rekkefølge) –. . nok stor for oss. . . (stor nok)
ASK feilkoder: Undertyper til feiltype O • INV (inversjonsfeil) – I begynnelsen det var veldig vanskelig. . . (var det) • OINV (overgeneralisering av inversjonsregel) –. . selv om er det press. . (det er) • MCA (gal plassering av setningsadverbialet i helsetning) – fordi jeg har ikke vært i Norge før. . (ikke har) • SCA (gal plassering av setningsadverbialet i leddsetning) – Man kan ringe alltid hvor man er. (alltid ringe)
ASK feilkoder: Tegnsettingsfeil • PUNC (galt valg av tegn) – Hvem trekker først. (? ) • PUNCM (tegnsetting mangler) – Når vi ser ca 50 år tilbake (ca. ) • PUNCR (tegnsetting må fjernes) –. . med huset, og barna (ikke komma foran og)
ASK feilkoder: Uidentifiserbar feil • X – Vennskapet mitt var utrolig. – de liker virkelig å hjelpe i menneskighet.
Innskriving/redigering: Oxygen
Stilark Til hjelp ved kontroll kan en kjøre flere stilark på server.
Stilark
Stilark
Konkordans som hjelpemiddel • • • De som koder har adgang til konkordans (via web) Kjøres på de tekstfilene som enhver tid er i katalogen Kan sjekke hvordan andre har kodet Kan sjekke konsistens i koding Kan enkelt gå til for retting
Konkordans
Konkordans
Persondata • • • Skjema har forandret seg gjennom årene Data ligger i SPSS-filer (kodet med kodebok) Ulike formater Eksporteres som tab-separert fil Kobles med tekst gjennom kandidatnummer-år/mnd Diskusjon med Datatilsynet/NSD om hva vi kunne ta med (tekster ble også anonymisert mht. navn, steder etc. )
Tagging • Bruker Oslo-Bergen tagger • Kan være problematisk å bruke standard tagger på tekst med mange feil • Tagger er robust • Tagger bruker corr-feltet ved ortografiske feil
Tilrettelegging for søking • Bruker Corpus Workbench via TCP/IP socket • Web-basert grensesnitt (Common Lisp) • Web-sider lages som XML og oversettes på server til HTML via stilark (XSLT) • Det lages en korrektversjon av hver setning, får på denne måten et parallellkorpus • Kan rette taggefeil ved søking • Kan laste ned resultat til PC (Excel og lignende. )
Konkordans
Parallell konkordans
Tekst
Tagget tekst
Kollokasjon
- Slides: 43