Norsk aviskorpus og Norsk andresprkskorpus ASK erfaringer fra

  • Slides: 33
Download presentation
Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus Knut

Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus Knut Hofland, fagkonsulent, Aksis/Unifob Seminar ved Forskergruppe for leksikografi, ILN/Ui. O, 19. 04. 07 http: //gandalf. aksis. uib. no/~knut/oslo-19. 4. 07/ www. aksis. uib. no

Norsk aviskorpus (avis. uib. no) • • Et automatisert opplegg for å hente avisartikler

Norsk aviskorpus (avis. uib. no) • • Et automatisert opplegg for å hente avisartikler fra Web Har foregått siden 1998, presentert på Lysebu okt. 98 Halvautomatisk arbeid 95 -98 Tenkt som et midlertidig prosjekt (inntil Norsk korpus ble etablert) for å etablere stor tekstmengde ved liten innsats • I hovedsak internt finansiert ved Aksis • Noe midler fra Ui. B • AVIT midler fra 2007

Aviser som hentes • • • Adresseavisen (AA), Trondheim Aftenposten (AP), Oslo Bergens Tidende

Aviser som hentes • • • Adresseavisen (AA), Trondheim Aftenposten (AP), Oslo Bergens Tidende (BT), Bergen Dagsavisen (DA), Oslo Dagbladet (DB), Oslo Dagens Næringsliv, (DN) Oslo Fædrelandsvennen (FV), Kristiansand Nordlys (NL), Tromsø Stavanger Aftenblad (SA), Stavanger Verdens Gang (VG), Oslo

Utvikling siden 1998

Utvikling siden 1998

Siste dagers tilvekst • • • • Dagens Dagens Dagens Dagens antall: antall: antall:

Siste dagers tilvekst • • • • Dagens Dagens Dagens Dagens antall: antall: antall: antall: 419764 363745 431296 293123 322937 469965 418334 435857 380328 194382 169864 226179 244123 Totalt: Totalt: Totalt: Totalt: 537564671 537144907 536781162 536349866 536056743 535733806 535263841 534845507 534409650 534029322 533834940 533665076 533438897 Wed Tue Mon Sun Sat Fri Thu Wed Tue Mon Sun Sat Fri Apr Apr Apr Apr 18 17 16 15 14 13 12 11 10 9 8 7 6 22: 03: 22 22: 03: 23 22: 03: 31 22: 03: 14 22: 03: 12 22: 03: 50 22: 03: 48 22: 03: 39 22: 03: 07 22: 02: 32 22: 02: 27 22: 02: 35 22: 02: 38 CEST CEST CEST CEST 2007 2007 2007 2007

De enkelte trinn • • • Henter URL-er fra hovedinndelingene i avisene (w 3

De enkelte trinn • • • Henter URL-er fra hovedinndelingene i avisene (w 3 mir) Plukker ut URL-er til artikler og generere skript for henting Henting av artikler og produksjon av samlefil Utplukk av artikkeltekst og dato Stripping av HTML-koder Konvertering til Corpus Workbench-format (et ord pr. linje) Separering av bokmål og nynorsk Oppdatering av samlefiler (splitter etter årstall) Tagging Produksjon og oppdatering av ordlister/statistikk Indeksering med Corpus Work. Bench

Utplukk av aktuelle URL-er • • http: //www. bt. no/bergenpuls/utstilling/article 355057. ece http: //www.

Utplukk av aktuelle URL-er • • http: //www. bt. no/bergenpuls/utstilling/article 355057. ece http: //www. bt. no/dyr/article 321692. ece http: //www. bt. no/dyr/article 354900. ece http: //www. bt. no/forbruker/article 342333. ece http: //www. bt. no/forbruker/article 353652. ece http: //www. bt. no/forbruker/article 356091. ece http: //www. bt. no/forbruker/bilogmotor/article 323455. ece Sjekkes mot oversikt over filer som tidligere er hentet Nye filer hentes og samles i en fil (pr. avis) Plukker nå også opp mulige URL-er via RSS.

Utplukk av artikkeltekst Går gjennom HTML-kode og slår på/av utplukk basert på tekststrenger i

Utplukk av artikkeltekst Går gjennom HTML-kode og slår på/av utplukk basert på tekststrenger i dokumentet. Et program for hver avis. if pos("faktaboks", stopp) gt 0 then utvalgtrue("</DIV"); utvalgtrue("START ARTIKKEL"); utvalgtrue("<!-- ferdig relaterte-saker"); utvalgtrue("ID=""artikkelspalte"); utvalgtrue("=""+3"""); utvalgfalse("Resultater fra 42 ligaer"); utvalgfalse("<!-- relaterte saker"); utvalgfalse("VG Nett følger: "); utvalgfalse("- Eliteguiden -"); utvalgfalse(">Les også: <");

Utfordringer • Følge med på omorganisering av struktur i avisene • Følge med på

Utfordringer • Følge med på omorganisering av struktur i avisene • Følge med på forandring i layout • Duplikater av tekst

Stripping av HTML • • Gjelder vanlige HTML-tagger Noen få beholdes (<p>, , men

Stripping av HTML • • Gjelder vanlige HTML-tagger Noen få beholdes (<p>, , men oversettes til et tegn) En del aviser har egne tagger (ikke standard) Entiteter oversettes til Latin 1 (å -> å)

Separerer bokmål, nynorsk og engelsk Basert på toppen av en frekvensliste for hvert ”språk”

Separerer bokmål, nynorsk og engelsk Basert på toppen av en frekvensliste for hvert ”språk” akkurat alene allerede annen annet bare barn bedre begge begynte blitt andletet annan att augo auka berre betre blei boka bur dagar the and in that is was it he as with on his

Tagging • Kjører Oslo-Bergen tagger via SOAP grensesnitt • Morfologisk og syntaktisk disambiguering •

Tagging • Kjører Oslo-Bergen tagger via SOAP grensesnitt • Morfologisk og syntaktisk disambiguering • Tagging av ca. 300. 000 ord tar 4 -7 timer • Har tagget bakover til 1. 1. 2000. • År 2004 er tilgjengelig for søk (ca. 48 mill ord).

Dagens ”nye” ordformer • Hver dag lages ordliste over dagens ordformer • Denne ordlisten

Dagens ”nye” ordformer • Hver dag lages ordliste over dagens ordformer • Denne ordlisten sammenlignes med en ordliste basert på alt tilgjengelig tekstmateriale ved Aksis (ca. 3. 9 mill former) • Det lages en liste med ord som ikke finnes i denne ordlisten, opptil 1200 -1300 hver dag.

”Nyord”

”Nyord”

Anglisismer

Anglisismer

Allmenne nyord

Allmenne nyord

Søk i ordliste Resultat av søk Søk etter starten av ord: klima 7510 5967

Søk i ordliste Resultat av søk Søk etter starten av ord: klima 7510 5967 4007 3116 3081 1310 1221 1126 893 889 847 735 687 651 633 602 565 523 klimaet klimaendringer klimagasser klimaendringene klimaanlegg klimaks klimapanel klimagassutslippene klimaforskning klimapolitikk klimakvoter klimagassutslipp klimatiltak klimatiske klimapolitikken klimagassen klimaforskere

Wordschatz, Univ. i Leipzig

Wordschatz, Univ. i Leipzig

Rekvirere brukernavn

Rekvirere brukernavn

Søking

Søking

Søkeskjema

Søkeskjema

KWIC

KWIC

Tsunami 1998 -2006

Tsunami 1998 -2006

Bedehus*, 1998 -2006

Bedehus*, 1998 -2006

sex, 1998 -2006

sex, 1998 -2006

Søk i tagget del

Søk i tagget del

KWIC

KWIC

Frekvenser ord i bokmålsordboka

Frekvenser ord i bokmålsordboka

AVIT • • • Tekstinnhenting Klassifisering bokmål/nynorsk Annotering av syntaktisk og morfologisk informasjon Nyordlister

AVIT • • • Tekstinnhenting Klassifisering bokmål/nynorsk Annotering av syntaktisk og morfologisk informasjon Nyordlister og nyorddatabase Teksttypologi og annotering Språkmodellering, kollokasjoner og n-gram-produksjon Trebanker Brukergrensesnitt Nyanskaffelser og bruksrettigheter Ekstern evaluering