🏠 Forside § Lover 📜 Forskrifter 💼 Bransjeforskrifter 📰 Lovtidend 🏛 Stortingsvoteringer Domstoler 🇪🇺 EU/EØS 📄 Siste endringer 📚 Rettsomrader 📊 Statistikk 🔍 Avansert sok Hjelp
Hjem / Horinger / Horing / Horingssvar
Regjeringen Med merknad
Til horingen: Høring - NOU 2024:14 Med lov skal data deles

Språkrådet

Høringsuttalelse fra Språkrådet
Departement: Familiedepartementet 4 seksjoner

1. Innledning og hovedpunkter

Språkrådet er statens forvaltingsorgan i språkspørsmål og følger opp språkpolitikken i tråd med Prop. 108 L (2019–2020) Lov om språk (språklova).

Et av Språkrådets oppdrag er å følge opp dialogen med offentlig sektor om anskaffelser og anvendelse av språkteknologi i offentlig sektor. En del av dette arbeidet er å se til at innsamlede og utviklede ressurser, herunder språkdata som utgjør datagrunnlaget for språkteknologikomponenten i kunstig intelligens (KI), muliggjør gjennomføringen av norsk språkpolitikk.

I henhold til språkloven skal offentlige virksomheter «kommunisere på eit klart og korrekt språk» ( Lov om språk § 9) og «følgje den offisielle rettskrivinga for bokmål og nynorsk» ( Lov om språk § 10). Mange offentlige virksomheter har plikt til å bruke både bokmål og nynorsk, og alle har et særlig ansvar for å styrke og fremme nynorsk, som er det minst brukte og mest utsatte av de to norske skriftspråkene. Dersom de nødvendige språkdataene ikke gjøres tilgjengelige for opptrening av norske språkmodeller, vil ikke modellene som blir brukt i KI-løsninger, analysere og generere klart og korrekt bokmål og nynorsk slik loven krever.

Språkrådets hovedfokus i dette innspillet er at loven og tilhørende forskrifter skal bidra til å sikre data til norsk språkteknologi og norske språkmodeller. Språkrådet har observert at det er vanskelig å oppnå forståelse for hva språkdata er, hvor viktig en slik forståelse er. Vi har også erfart at publiseringssystemer som er i bruk i offentlig sektor, kompliserer innhøsting av språkdata. Videre vet vi at språkdata i mange tilfeller er dyre å tilrettelegge for viderebruk, bl.a. fordi de krever mye strukturering, og fordi anonymisering av tekst er mer komplisert enn for andre datasett som inneholder personopplysninger.

Alle offentlige virksomheter sitter på språkdata, særlig dokumenter fra saksbehandling og annet arkivmateriale, som kan brukes til å forbedre og finjustere norske språkmodeller, men som ikke deles til viderebruk.

Nedenfor er kommentarer til § 5 (4), §§ 13 og 14 samt en kommentar til § 4 bokstav d om forskningsdata.

2. Kommentar til § 5 (4)

Av de to alternative formuleringene som er presentert i lovforslaget, mener Språkrådet at alternativ 2 best formulerer kravene som må stilles til systemene for å sikre norske språkdata.

Språkrådet leser tekstalternativ 2 slik at det stilles tydeligere krav enn i alternativ 1 til at utformingen (designet) av egne systemer skal gjøre viderebruk lettere. Dermed vil alternativ 2 bidra best til å sikre innhøsting og viderebruk av språkdata fra offentlige virksomheter.

For å forenkle tilsynsarbeidet med språkveksling mellom nynorsk og bokmål i offentlig sektor har Språkrådet i samarbeid med språkbanken ved Nasjonalbiblioteket utviklet Målfrid, et verktøy som automatisk høster inn tekst fra nettsidene til alle virksomheter som er underlagt språkloven. Målfrid letter statlige virksomheters arbeidsbyrde ved å analysere språkbruken i tekstene og automatisere rapporteringen om bruken av bokmål og nynorsk. Tidligere var dette et arbeid offentlige virksomheter måtte rapportere om selv. Tekstene som Målfrid høster inn, legges inn som datasett i språkbanken og kan viderebrukes som grunnlagsressurser for å utvikle norsk språkteknologi. Disse datasettene har høy nynorskandel og er derfor ekstra verdifulle.

Innhøsting av språkdata er ikke trivielt for Målfrid, siden den økende bruken av JavaScript på offentlige nettsider gjør det vanskeligere å høste inn språkdata. Enkelte nettsteder lar seg i dag ikke lenger bruke eller høste overhodet uten at JavaScript er aktivert. Det finnes riktignok løsninger som høster med JavaScript-støtte, men de er mer tid- og ressurskrevende å bruke fordi de krever ytterligere domenetilpasninger. EU-direktivet om åpne data ( direktiv 2019/1024 fortalen punkt 34 og 35 ) presiserer at dokumenter som har et filformat som begrenser automatisk behandling, ikke skal regnes som maskinlesbare.

Strenge krav til utforming av systemer som gjør det enkelt for Målfrid å høste slike data, vil komme offentlige virksomheter til gode fordi det innhøstede materialet danner grunnlaget for ferske datasett til bruk i språkmodeller.

4. Om nasjonalt prioriteringsråd for deling og viderebruk av data for offentlig virksomhet (§ 14)

Språkrådet har erfart at det er vanskeligere å formidle kunnskap om hva språkdata er enn hva andre data er, siden språkdata sjelden er produsert som egne datasett, og de dataene vi trenger, krever mer bearbeiding enn andre data før de kan viderebrukes.

Et nasjonalt prioriteringsråd for deling og viderebruk av offentlige data bør ha en representant som er kjent med betydningen norske språkdata har for digitaliseringen i Norge og for norsk språkpolitikk. Samtidig bør representanten være kjent med hvor komplekse problemstillinger som dukker opp når slike data skal deles, og hvordan de skal organiseres for å kunne viderebrukes.

Både Nasjonalbiblioteket og Språkrådet peker seg ut som naturlige representanter i et slikt prioriteringsråd. Disse virksomhetene er allerede tildelt nasjonalt ansvar for norsk språk og språkteknologi i et samarbeid hvor Språkrådet skal sørge for at norsk språkpolitikk blir gjennomført, og Nasjonalbiblioteket samler inn språkressurser til språkbanken. I forslaget til statsbudsjettet for 2025 får Nasjonalbiblioteket i oppdrag å lage nasjonale norske språkmodeller.

Arbeidet med å peke ut datasett med spesielt høy verdi er knyttet tett opp mot EUs felles europeiske dataområder ( Data Spaces ). Språkrådet er for tiden med i konsortiet som skal promotere Language Data Space (LDS), og har sammen med Nasjonalbiblioteket tidligere deltatt i og bidratt til en rekke prosjekter som skal sikre datagrunnlag for språkteknologi og KI: ELRC (European Language Resource Coordination), ELG [4] (European Language Grid) og ELE [5] (European Language Equality).

5. Andre kommentarer: Kommentar til § 4 bokstav d

I henhold til denne paragrafen er vitenskapelige publikasjoner ikke å regne som forskningsdata etter loven. Språkrådet har to kommentarer til dette punktet:

[1] https://op.europa.eu/en/publication-detail/-/publication/3df0f526-2510-11ee-94cb-01aa75ed71a1/language-en

[2] MIMIR-prosjektet. Evaluering av virkningen av opphavsrettsbeskyttet materiale på generative

store språkmodeller for norske språk (https://www.nb.no/content/uploads/2024/08/Mimirprosjektet_teknisk-rapport.pdf).

[3] Solberg et al. (2024) Status for norsk talegjenkjenning (https://www.nb.no/sbfil/dok/2024_talegjenkjenning.pdf).

[4] Georg Rehm (ed.). European Language Grid: A Language Technology Platform for Multilingual Europe . Cognitive Technologies. Springer: Cham, Sveits, januar 2023 (https://link.springer.com/content/pdf/10.1007/978-3-031-17258-8.pdf).

[5] Georg Rehm, Andy Way (ed.). European Language Equality: A Strategic Agenda for Digital Language Equality. Cognitive Technologies. Springer: Cham, Sveits, juni 2023 (https://link.springer.com/content/pdf/10.1007/978-3-031-28819-7.pdf).