Norske språkmodeller: Dette er de 3 viktigste initiativene

Norske språkmodeller konkurrerer i et globalt industripolitisk race. Denne artikkelen belyser NorLLM, NorGPT og NORA.LLM.

Norske språkmodeller

Åpne, norske språkmodeller er her

I 2024 har flere norske språkmodeller kommet. De kan brukes av bedrifter, organisasjoner og privatpersoner. De er gratis, åpne og bryter ikke opphavsretten.

Men hvorfor er det så få som snakker om de? Og kan de måle seg med gigantene som ChatGPT og Google Gemini?

I denne artikkelen skal vi se nærmere på de tre viktigste norske språkmodellene: NorLLM, NorGPT og NORA.LLM.

«KI er i ferd med å bli et globalt industripolitisk race.»

– Sven Størmer Thaulow, styreleder i NorwAI1 NTNU: NorwAI

NorLLM

NorLLM står for «Norwegian Large Language Models».

Det er en samling med tre store språkmodeller utviklet av NorwAI, et av Norges fremste forskningssentre for kunstig intelligens.2 NorwAI

De tre modellene som utgjør NorLLM er:

  • NorGPT-7B (basert på GPT-2 fra OpenAI)
  • Llama2-7B (basert på Meta sin åpne Llama2-modell)
  • Mistral-7B (basert på den åpne Mistral-modellen)

NorLLM er laget for å være åpne og fritt tilgjengelige for alle, også til kommersielle formål.

Saken fortsetter under bildet.

Fleksible små språkmodeller - NorLLM
Bilde av AIavisen: NorLLM kan tilpasses bedriftens behov.

Samtidig lover NorwAI at AI-en er trygg å bruke: Den vil ikke bryte med personvern eller opphavsrett.

Målet er å stille modellene til rådighet for det norske samfunnet slik at vi ikke overlater språkutviklingen til utenlandske teknologiselskaper.3 NTNU: NorLLM

«Vi må ikke overlate språkutviklingen til utenlandske teknologiselskaper.»

– Åse Wetås, direktør i Språkrådet, ved forhåndspremieren til NorLLM

Når blir NorLLM tilgjengelig?

Modellene ble vist frem på en førpremiere i Trondheim 14. februar 2024 og lanseres 15. mai.

Lanseringen finner sted ved Schibsteds kontorer i Oslo. Arrangementet organiseres av NTNU, SINTEF, Schibsted, med flere. Arrangementet er fulltegnet.4 SINTEF

Hvem utvikler NorLLM?

NorLLM utvikles av flere store aktører som NTNU, Schibsted, DNB, NRK, Telenor, UiO og SINTEF.

Her er en oversikt over partnerne i NorwAI:

NorwAI partnere
Bilde: NorwAI er et forskningssenter for AI-innovasjon med mange partnere.

NORA.LLM

NORA.LLM er en samling med store norske språkmodeller som ble lansert i februar 2024.5 UiO

Modellene er utviklet av UiO i samarbeid med Nasjonalbiblioteket og Sigma2.

NORA.LLM er derfor noe annet enn NorLLM, selv om navnene nesten er identiske.

«Dette er de største [modellene] vi har laget så langt og de er trent på over 30 milliarder ord.»

– Erik Velldal, professor ved UiO6 UiO

De fire modellene som utgjør NORA.LLM er:

  • NorMistral 7b warm
  • NorMistral 7b warm-instruct
  • NorMistral 7b scratch
  • NorBLOOM 7b scratch

UiO sier at modellene er fri for restriksjoner, siden de har åpen kildekode, åpen lisens og er tilgjengelig for alle. De trenes bare på lovlige data.7 UiO

Du kan lære mer om AI-en i denne videoen:

Video: UiO-forskere forklarer satsingen på norske språkmodeller.

Når blir NORA.LLM tilgjengelig?

Modellene er tilgjengelige og kan lastes ned fra Hugging Face.8 Hugging Face

Du kan kjøre de lokalt på egen maskin.

Modellene krever litt teknisk kompetanse å ta i bruk, ifølge UiO.9 UiO

Hvem utvikler NORA.LLM?

Modellene utvikles først og fremst av språkteknologigruppa (LTG) ved UiO.

De støttes av Nasjonalbiblioteket, Sigma2 og NORA-konsortiet.

NORA består av norske universiteter og forskningssentre:10 NORA

NORA partnere - logoer
Bilde: Partnere i NORA.

NorGPT

NorGPT er den største norske språkmodellen. Den utvikles også av NorwAI, som lager NorLLM.11 NorGPT

NorGPT er to forskjellige modeller:

  • NorGPT-7B: «Lillebror» som er en del av NorLLM.
  • NorGPT-40B: «Storebror» som har 40 milliarder parametre.

I sammenligning har språkmodellene i NorLLM og NORA.LLM 7 milliarder parametre.

NorGPT-40B er det største prosjektet. Det har flere parametre og trenes på større datamengder. Denne modellen er overlegen, ifølge samtaler med NorwAI på NorLLM sin forhåndspremiere.

Men, den vil ta lengre tid å utvikle.

NorGPT er en grunnmodell som andre aktører kan bygge sine tjenester på.

NorGPT er utviklet av NTNU og kjøres på universitetets superdatamaskiner i Trondheim. Modellen fungerer både på bokmål og nynorsk og beskrives som svært fleksibel i bruk.

Å trene norske språkmodeller av NTNU
Bilde fra NTNU: Språkmodeller må tilpasses og justeres før de er trygge å bruke.12 NTNU

Når blir NorGPT tilgjengelig?

Det er ukjent. NorGPT-40B kommer nok ikke med det første.

NorGPT-7B kommer 15. mai som en del av NorLLM-familien.

AI blir nasjonal infrastruktur som skal bevare norsk

Per dags dato er språkmodellene i en testfase. De kan lastes ned og kjøres lokalt.

Men de er enda ikke blitt til nettbaserte tjenester, som ChatGPT eller Copilot.

Deres formål er å lage et grunnlag som bedrifter og offentlig sektor kan bruke for å lage ulike tjenester.

Samtidig er det ikke bare enkelttjenester det er snakk om.

Denne teknologien lager grunnlaget for en ny, norsk infrastruktur, ifølge UiO og NORA.13 UiO / NORA

Å bevare norsk

En annen viktig oppgave for språkmodellene er å bevare det norske språket, som Åse Wetås, direktør i Språkrådet, sier:

– Vi må ikke overlate språkutviklingen til utenlandske teknologiselskaper.

Dette støttes av professor Erik Velldal ved UiO:

– Det er mange problemer knyttet til tekgigantenes språkmodeller. De fremstår som sorte bokser for verden utenfor. Vi trenger norske alternativer.14 UiO

Og sist men ikke minst, understrekes poenget av Sven Størmer Thaulow, styreleder i NorwAI:

– Som en liten nasjon trenger vi kontroll på vår egen infrastruktur. KI er i ferd med å bli et globalt industripolitisk race. Det er ikke gitt at teknologien vil bli demokratisert.15 NTNU: NorwAI

Nasjonalbibliotekets rolle

Nasjonalbiblioteket er med i utviklingen av alle modellene som er nevnt.

De tilbyr norske tekster som kan brukes som lovlige treningsdata.

De utvikler også sine egne modeller, som heter NB-GPT-J-6B. De har 6 milliarder parametre og bruker GPT-J-teknologien fra EleutherAI.16 Nasjonalbiblioteket

AI-en er trent på data fra biblioteker og internett for å kunne forstå og skrive norsk tekst.

Det er enda ikke så mye informasjon om modellene.

Du kan laste de ned fra Hugging Face.17 Hugging Face

Det blir spennende å følge utviklingen videre!

Følg AIavisen for å se hvordan norske bedrifter og organisasjoner tar i bruk språkmodellene.

Endringslogg

Her er en oversikt over endringene vi har gjort i artikkelen:

11.05.2024:

  • Korreksjon av NORA.LLM sin lanseringsdato fra mars til februar, 2024. Takk til Stephan Oepen for korreksjonen.
  • La til en kilde om påstanden at NorGPT-40B er overlegen.

Skroll til toppen