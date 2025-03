Dette er bakgrunnen for at Stortinget i statsbudsjettet for 2025 bevilger 40 millioner ekstra til Nasjonalbiblioteket (NB) for å trene språkmodeller til bruk i og av det norske samfunnet. Vi er allerede i gang med å etablere et AI-senter som skal kombinere forskning, innovasjon og tjenester til samfunnet. Kjerneoppgaven er å trene et sett generelle modeller som stilles til rådighet for fri og tilnærmet ubegrenset bruk. Brukslisensen vil også åpne for at andre aktører kan integrere modellene i kommersielle produkter og tjenester.

Modellene som planlegges, vil trolig bygge på arkitekturer som Gemma, Llama og Mistral. Valg av arkitektur og treningsmetoder vil justeres i takt med den internasjonale utviklingen på feltet. De ferdigtrente modellene vil gjøres tilgjengelige i ulike størrelser tilpasset forskjellige bruksområder. Intensjonen er at offentlige og private virksomheter kan ta dem i bruk direkte, samt tilpasse og finjustere dem etter egne behov.

Mot talebasert samhandling

Men språkmodeller handler ikke bare om tekst. I 2024 lanserte NB en forbedret versjon av OpenAIs modell Whisper. NB-Whisper er nå den beste modellen for norsk tale-til-tekst-transkribering og håndterer dialekter langt bedre enn noen tilsvarende modell. Den kan også skrive ut tekst på både bokmål og nynorsk.

NB vil videreutvikle modellen og har samtidig startet eksperimenter med tekst-til-tale. Sammen med med tekstmodellene vil disse støtte utviklingen av mer varierte tjenester, inkludert talebasert samhandling mellom mennesker og maskiner.

Viktig lagringsplass: Nasjonalbibiblioteket samarbeider tett med Statsbygg, som har etablert et fjellanlegg for bevaring av kulturarv i Mo i Rana. Foto: Statsbygg/Hans Fredrik Asbjørnsen

NB har ikke som ambisjon å utvikle tjenester som konkurrerer med Deepseek, Gemini eller ChatGPT. AI-senteret skal i stedet levere gode komponenter som andre kan bygge videre på i utvikling av tjenester. For å sikre at modellene dekker brukermiljøenes behov, må disse miljøene involveres i treningsprosessene.

Samtidig må arbeidet holde tritt med den raske utviklingen, og vi vil derfor samarbeide med NorwAI og Universitetet i Oslo/LTG om forskning på feltet. Dersom søknaden om et nasjonalt forskningssenter for språkmodellering innvilges av Norges forskningsråd, vil ny kunnskap bidra til stadig bedre modeller for bruk i det norske samfunnet.

Minoritetsspråk og -kulturer har særlige utfordringer på dette området. Manglende støtte for samiske språk i sentrale digitale tjenester er både et kulturelt og demokratisk problem. Stortinget har derfor bedt NB om også å utvikle språkmodeller for samisk.

Den største utfordringen på kort sikt er å skaffe en stor mengde treningsdata av god kvalitet. Både denne og andre utfordringer vil løses i et samarbeid mellom flere institusjoner, men selve treningen av samiske modeller vil skje ved NBs AI-senter.

Opphavsrett i treningen

I tillegg til oppdraget med å trene modeller for samfunnet, har regjeringen bedt NB om å gjennomføre forhandlinger med de som har rettigheter til publisert tekstlig innhold. Store tech-selskaper blir spesielt i USA saksøkt av rettighetshavere fordi man mener at store språkmodeller er trent på innhold under opphavsrett uten tillatelse.

I Norge velger man i god tradisjon heller å forsøke å etablere avtaler til alles fordel. Derfor har NB i samarbeid med NorwAI/NTNU, Sigma2 og Universitetet i Oslo/LTG gjennomført et krevende forskningsprosjekt for å studere virkningen av å bruke innhold under opphavsrett i trening av norske språkmodeller. Den tekniske rapporten fra prosjektet finnes på nb.no. Rapporten, forteller at en strategisk bruk av innhold under opphavsrett kan forbedre ytelsen i språkmodeller.

Basert på resultatene har NB sammen med rettighetshavere etablert prinsipper for en mulig avtale. Om alle vinder blåser i samme retning, kan Norge som ett av de første landene i verden få slike avtaler på plass.