Veileder for innsamling av sprkdata fra offentlig sektor

  • Slides: 24
Download presentation
Veileder for innsamling av språkdata fra offentlig sektor Innføringsmøte i Informasjonsforvaltning 16. 09. 2020

Veileder for innsamling av språkdata fra offentlig sektor Innføringsmøte i Informasjonsforvaltning 16. 09. 2020 kristine. eide@sprakradet. no

Språkmeldingen som følger Prop. 108, forslag til ny språklov • Styrkje det sektorovergripande prinsippet

Språkmeldingen som følger Prop. 108, forslag til ny språklov • Styrkje det sektorovergripande prinsippet i språkpolitikken • Meir samarbeid og samfinansiering av prosjekt og tiltak på språkfeltet • Sektoroverskridende saker: • • Terminologi deling og tilgjengeleggjering av data språkteknologi og innovasjon. (s. 22) Regjeringa vil […] satse på infrastruktur som sikrar at språkteknologiske produkt fungerer på norsk. Vidare må ein sikre at det finst språklege grunnlagsressursar (data) som slike produkt byggjer på. (kap. 6 s. 42)»

Fra Digitaliseringsstategien 2019 -2025 Én digital offentlig sektor «Boks 3. 9 Språkteknologiske produkter og

Fra Digitaliseringsstategien 2019 -2025 Én digital offentlig sektor «Boks 3. 9 Språkteknologiske produkter og tjenester på norsk er en grunnleggende komponent i digitaliseringen av det offentlige. Språkbanken er en tjeneste i Nasjonal biblioteket som inneholder tekst og taleressurser til bruk i utvikling av språk teknologi på norsk. Felles for mange språkteknologiske løsninger er at de trenger en stor mengde ferske og områdespesifikke data for å fungere optimalt. Det er en utfordring å sikre avlevering av ressurser til språkbanken. »

Digitaliseringsrundskrivet 1. 2 Tilrettelegg for gjenbruk og viderebruk av informasjon […] Ved publisering bør

Digitaliseringsrundskrivet 1. 2 Tilrettelegg for gjenbruk og viderebruk av informasjon […] Ved publisering bør offentlig produsert tekst inneholde bruksvilkår som åpner for innhøsting og gjenbruk til språkteknologiske formål. Disse vilkårene bør være videre enn for andre typer gjenbruk. Terminologi og begrepslister bør leveres til Felles begrepskatalog. Ved kjøp av oversettelsestjenester, bør avtalene inneholde krav om levering av oversettelsesminner sammen med det ferdige resultatet. Oversettelsesminnene bør leveres til Nasjonalbibliotekets språkbank. Veiledning […] Språkdata som brukes som grunnlag for språkteknologi, omfatter ikke bare oversettelser og begrepslister, men også tekst, som for eksempel nettsider, rapporter og saksdokumenter. De språklige strukturene i tekst produsert av det offentlige, utgjør verdifulle data for språkteknologisk forskning og utvikling. Det er viktig å legge til rette for gjenbruk til dette formålet utover viderebruk av innholdet i tekstene.

Veileder for innsamling av språkdata fra offentlig sektor Arbeidsgruppe: Digitaliseringsdirektoratet Nasjonalbiblioteket/Språkbanken Språkrådet Arkivverket

Veileder for innsamling av språkdata fra offentlig sektor Arbeidsgruppe: Digitaliseringsdirektoratet Nasjonalbiblioteket/Språkbanken Språkrådet Arkivverket

Veileder for innsamling av språkdata fra offentlig sektor • Enkel å bruke • Identifisering

Veileder for innsamling av språkdata fra offentlig sektor • Enkel å bruke • Identifisering • Tilrettelagt for automatisk innsamling • Behandling • Avlevering/innhøsting • Data fra innkjøp • Juridiske hensyn • Kost/nytte • Samle inn kun én gang eller ved én prosess

Veileder for innsamling av språkdata fra offentlig sektor Hva er språkdata, hva er spesielt

Veileder for innsamling av språkdata fra offentlig sektor Hva er språkdata, hva er spesielt med dem og hva brukes de til? Hvorfor er vi opptatt av språkdata fra offentlig sektor? Hvilken gevinst kan de gi?

Om språkdata Hva er språkdata, hva er spesielt med dem og hva brukes de

Om språkdata Hva er språkdata, hva er spesielt med dem og hva brukes de til? SPRÅKTEKNOLOGI Korrekturlesning Skrivestøtte informasjonsinnhenting informasjonsekstrahering tekstsammendrag besvarelse av spørsmål/dialogsystemer talegjenkjenning talesyntese automatisk oversettelse

Om språkdata Hva er språkdata, hva er spesielt med dem og hva brukes de

Om språkdata Hva er språkdata, hva er spesielt med dem og hva brukes de til? Tekst (formell og uformell) Termlister og ordlister Oversettelser Tale SPRÅKDATA fra offentlig sektor: Internettsider Saksdokumenter fra arkiv Saksdokumenter fra Internett Oversettelser E post Twitter Termlister og ordlister Taledata Data fra innkjøp

Om språkdata Behov: Områdespesifikke data (sektoransvar) Store mengder God kvalitet (dårlig språk inn gir

Om språkdata Behov: Områdespesifikke data (sektoransvar) Store mengder God kvalitet (dårlig språk inn gir dårlig språk ut) Større mangel på nynorsk enn på bokmål Ferskvare!

Om språkdata Ferskvare! Ordboka Nyord i norsk tek for seg nye ord frå åra

Om språkdata Ferskvare! Ordboka Nyord i norsk tek for seg nye ord frå åra 1976– 2005. Boka inneheld 10 000 oppslagsord. På tretti år! (300 ord/år) Og dette er berre dei orda som har fått plass i ordboka.

Veileder for innsamling av språkdata fra offentlig sektor Fordeler/Gevinster ved å samle inn data

Veileder for innsamling av språkdata fra offentlig sektor Fordeler/Gevinster ved å samle inn data systematisk og legge dem f. eks. i Språkbanken: • Bedre språkteknologi – på begge målformer – til bruk i det offentlige • Samle inn kun en gang • Gjenbruk av de samme dataene

Veileder for innsamling av språkdata fra offentlig sektor Behov – Er noen data spesielt

Veileder for innsamling av språkdata fra offentlig sektor Behov – Er noen data spesielt verdifulle? Identifisering – Hvor og hvordan finner man språkdata i egen virksomhet? Behandling – Hva må gjøres med data før de leveres/høstes? Avlevering/innhøsting: Språkbanken/Felles begrepskatalog/Annet sted? Data fra innkjøp – språkdata som samles inn/bearbeides ved innkjøp av ny teknologi Juridiske hensyn (personvern, opphavsrett, lisensiering) Kost/nytte – hva er verdt innsatsen? Ansvar: Hvem har ansvar for at dataene blir samlet inn?

Oversettelser Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Oversettelser ALT! Språkbanken får

Oversettelser Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Oversettelser ALT! Språkbanken får fra store oversettelsesbyråer. Noen etater har også levert oversettelser. Anonymisering Språkbanken Engelsk – norsk Bokmål - nynorsk Oppmerking Helst TMX-format

Begreper, termlister, ordlister Ressurser fra offentlig sektor Behov Termlister og ordlister Særlig flerspråklige Identifisering

Begreper, termlister, ordlister Ressurser fra offentlig sektor Behov Termlister og ordlister Særlig flerspråklige Identifisering Behandling Avlevering/innhøstin g Tbx-format Felles begrepskatalog, Språkbanken

Nettsider Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Nettsider Alt Språkbanken/NB Lisensiering

Nettsider Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Nettsider Alt Språkbanken/NB Lisensiering Språkbanken

Saksdokumenter fra Internett Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Saksdokumenter fra

Saksdokumenter fra Internett Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Saksdokumenter fra Internett Særlig behov for områdespesifikk tekst og nynorsk. Språkbanken/NB Anonymisering? oppmerking. Språkbanken jobber med klassifisering etter område Språkbanken

Saksdokumenter fra arkiver Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Saksdokumenter fra

Saksdokumenter fra arkiver Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Saksdokumenter fra arkiv Særlig behov for områdespesifikk tekst og nynorsk. Via e innsyn Anonymisering oppmerking: tekstene må ordnes etter område Eget prosjekt

E poster Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g E-post Etterspurt. De

E poster Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g E-post Etterspurt. De som er knyttet til virksomhets epostkasse. Anonymisering Høstes ikke inn, annet enn evt. fra virksomhetenes epostkasse Ekstremt vanskelig å høste inn. For mye personlige opplysninger.

Twittermeldinger Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Twitter Stort ønske fra

Twittermeldinger Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Twitter Stort ønske fra utviklere Arkivverket. Fungerende høstingsmeksanism e. Arkivverket (med retriever) twitter, facebook, instagram fra politikken. Ligger tilgjengelig på arkivverkets nettsider (Espen Sjøvoll) Kostnad: den enkelte virksomheten må bære kostnadene. Kan omfattes av arkivloven. Vurderinger er underveis.

Taledata Ressurser fra offentlig sektor Taledata Behov Identifisering Språkbanken Behandling Avlevering/innhøstin g Språkbanken

Taledata Ressurser fra offentlig sektor Taledata Behov Identifisering Språkbanken Behandling Avlevering/innhøstin g Språkbanken

Data og programvare fra innkjøp/utvikling av ny teknologi Ressurser fra offentlig sektor Behov Identifisering

Data og programvare fra innkjøp/utvikling av ny teknologi Ressurser fra offentlig sektor Behov Identifisering Behandling Avlevering/innhøstin g Data fra innkjøp Må ha Før innkjøp Juridisk, i forkant Språkbanken har mottak

Hvem har ansvaret? ?

Hvem har ansvaret? ?

Takk for oppmerksomheten! Og sees kanskje på Språkdagen 3. November Eller «Kan roboten egentlig

Takk for oppmerksomheten! Og sees kanskje på Språkdagen 3. November Eller «Kan roboten egentlig snakke? » 25. november - om bruk av språkteknologi i offentlig sektor