Alt om NORA.LLM: En åpen, norsk språkmodell

Sammendrag

Fire store språkmodeller er lansert under navnet NORA.LLM.
De er utviklet av UiO i samarbeid med Nasjonalbiblioteket og Sigma2.
Målet er å tilby et norsk alternativ til ChatGPT.
Modellene er åpne og transparente, og bruker bare lovlige data.
Du kan laste ned og bruke modellene på egen maskin (guide i artikkelen).

Hva er NORA.LLM?

NORA.LLM er en samling med fire store norske språkmodeller.

Målet er at NORA.LLM skal bli et åpent alternativ til de internasjonale modellene som ChatGPT. AI-en er tilpasset norsk språk og kultur.

– Det er mange problemer knyttet til tekgigantenes språkmodeller. De fremstår som sorte bokser for verden utenfor. Vi trenger norske alternativer.
Erik Velldal, professor ved UiO¹

Du kan laste ned modellene og bruke de selv på egen maskin. Det er ikke en tjeneste som er på nett.

Modellene er trent på Europas kraftigste datamaskin, «LUMI». De har 7 milliarder parametre og er trent på 30 milliarder ord.²

Saken fortsetter under bildet.

Om NORA.LLM - Forklaring av UiO LTG — Skjermbilde (April, 2024): Velldal fra UiO Language Technology Group (LTG) forklarer utviklingen på «CuttingEdgeAI».³

– Fri for restriksjoner

UiO sier at modellene skal være fri for restriksjoner, i motsetning til ChatGPT.

Slik fungerer det i praksis:

Åpen kildekode: Koden er tilgjengelig for alle.
Åpen lisens: Du kan bruke, kopiere, endre og distribuere modellene uten å måtte betale lisens eller be om tillatelse.
Åpne data: De bruker norske tekster, blant annet fra Nasjonalbiblioteket.
Tilgjengelig for alle: Modellene ligger ute på Hugging Face.
Transparent: Modellene er bygd for innsyn.

Siden NORA.LLM er åpen og transparent blir det mulig å få innsyn i og vurdere hvordan AI-en fungerer.

I motsetning er de internasjonale språkmodellene «sorte bokser». Man vet ikke hvilke data de er trent på, eller hvordan dataene behandles.

Lukkede modeller kan føre til store problemer.

Eksempelvis saksøkes OpenAI og Microsoft av en rekke forfattere og mediehus for brudd på opphavsretten.⁴

Åpenhet som prinsipp

Ifølge UiO er åpenheten et bevisst valg for å sikre at denne teknologien kommer fellesskapet til gode:

– Det er et viktig prinsipp at vi lager modeller som er fri for restriksjoner. Vi må ha slike modeller som er basert på åpent tilgjengelige ressurser og som er transparente for forskningsmiljø og næringsliv.

Det sier professor Erik Velldal til Titan UiO.⁵

Video: UiO forklarer prosjektet

NORA organiserte nylig «CuttingEdgeAI», et arrangement om norske språkmodeller.

Her forklarer forskere fra UiO hvordan modellene er utviklet:

Saken fortsetter under.

Video: Forskere fra UiO forklarer satsingen på norske språkmodeller under «CuttingEdgeAI».

Forskjellen mellom NORA.LLM og NorLLM

NORA.LLM er noe annet enn NorLLM, selv om navnene er like.

Begge prosjektene er norske språkmodeller som trenes på norske data.

Her er forskjellen:

NORA.LLM utvikles av UiO, Nasjonalbiblioteket og Sigma2.
NorLLM utvikles av forskningssenteret NorwAI (NTNU, Schibsted, med flere).

Slik laster du ned NORA.LLM

Først må du først laste ned språkmodellene.

De er tilgjengelige på Hugging Face.⁶

Det er fire modeller å velge mellom og alle har åpen kildekode:

NorMistral 7b warm
NorMistral 7b warm-instruct
NorMistral 7b scratch
NorBLOOM 7b scratch

De er lastet ned over 11 tusen ganger.

Modellene er foreløpig laget for forskere og utviklere. De krever litt teknisk kompetanse å ta i bruk. De er ikke like brukervennlige som ChatGPT enda.⁷

Du kan kjøre modellene lokalt ved å laste ned programmet LM Studio.⁸

Deretter må du laste ned filene som trengs for å kjøre modellen i dette programmet.

NORA skal sikre språkets fremtid

På sikt ønsker NORA å etablere en nasjonal infrastruktur for å utvikle og bruke store norske språkmodeller.

NORA står for «Norwegian Artificial Intelligence Research Consortium».

Det er et konsortium med norske universiteter og forskningssentre:

NORA partnere - logoer — Bilde: Partnere i NORA.

I 2023 søkte de Forskningsrådet om finansiering til å videreutvikle norske språkmodeller. Prosjektet har et budsjett på 212 millioner kroner, hvorav 62 millioner er egeninnsats fra partnerne.⁹

— Store språkmodeller vil i økende grad fungere som grunnleggende infrastruktur (…)
Erik Velldal, UiO¹⁰

Formålet er å bevare norsk språk og kultur med AI. Modellene blir fremtidens infrastruktur, ifølge NORA.

Språkmodellene skal bli et kollektivt gode og en infrastruktur som forskningsmiljøer, offentlig sektor og næringsliv kan bygge videre på.

Ifølge søknaden er prosjektet et inkluderende initiativ som vil involvere andre fagmiljøer. De planlegger å samarbeide med nordiske AI-initiativer.¹¹

Sammendrag