Sammendrag
- Fire store språkmodeller er lansert under navnet NORA.LLM.
- De er utviklet av UiO i samarbeid med Nasjonalbiblioteket og Sigma2.
- Målet er å tilby et norsk alternativ til ChatGPT.
- Modellene er åpne og transparente, og bruker bare lovlige data.
- Du kan laste ned og bruke modellene på egen maskin (guide i artikkelen).
Hva er NORA.LLM?
NORA.LLM er en samling med fire store norske språkmodeller.
Målet er at NORA.LLM skal bli et åpent alternativ til de internasjonale modellene som ChatGPT. AI-en er tilpasset norsk språk og kultur.
– Det er mange problemer knyttet til tekgigantenes språkmodeller. De fremstår som sorte bokser for verden utenfor. Vi trenger norske alternativer.
Erik Velldal, professor ved UiO1 UiO
Du kan laste ned modellene og bruke de selv på egen maskin. Det er ikke en tjeneste som er på nett.
Modellene er trent på Europas kraftigste datamaskin, «LUMI». De har 7 milliarder parametre og er trent på 30 milliarder ord.2 UiO
Saken fortsetter under bildet.
– Fri for restriksjoner
UiO sier at modellene skal være fri for restriksjoner, i motsetning til ChatGPT.
Slik fungerer det i praksis:
- Åpen kildekode: Koden er tilgjengelig for alle.
- Åpen lisens: Du kan bruke, kopiere, endre og distribuere modellene uten å måtte betale lisens eller be om tillatelse.
- Åpne data: De bruker norske tekster, blant annet fra Nasjonalbiblioteket.
- Tilgjengelig for alle: Modellene ligger ute på Hugging Face.
- Transparent: Modellene er bygd for innsyn.
Siden NORA.LLM er åpen og transparent blir det mulig å få innsyn i og vurdere hvordan AI-en fungerer.
I motsetning er de internasjonale språkmodellene «sorte bokser». Man vet ikke hvilke data de er trent på, eller hvordan dataene behandles.
Lukkede modeller kan føre til store problemer.
Eksempelvis saksøkes OpenAI og Microsoft av en rekke forfattere og mediehus for brudd på opphavsretten.4 New York Times 1 / New York Times 2 / Reuters 1 / Reuters 2
Åpenhet som prinsipp
Ifølge UiO er åpenheten et bevisst valg for å sikre at denne teknologien kommer fellesskapet til gode:
– Det er et viktig prinsipp at vi lager modeller som er fri for restriksjoner. Vi må ha slike modeller som er basert på åpent tilgjengelige ressurser og som er transparente for forskningsmiljø og næringsliv.
Det sier professor Erik Velldal til Titan UiO.5 UiO
Video: UiO forklarer prosjektet
NORA organiserte nylig «CuttingEdgeAI», et arrangement om norske språkmodeller.
Her forklarer forskere fra UiO hvordan modellene er utviklet:
Saken fortsetter under.
Forskjellen mellom NORA.LLM og NorLLM
NORA.LLM er noe annet enn NorLLM, selv om navnene er like.
Begge prosjektene er norske språkmodeller som trenes på norske data.
Her er forskjellen:
- NORA.LLM utvikles av UiO, Nasjonalbiblioteket og Sigma2.
- NorLLM utvikles av forskningssenteret NorwAI (NTNU, Schibsted, med flere).
Slik laster du ned NORA.LLM
Først må du først laste ned språkmodellene.
De er tilgjengelige på Hugging Face.6 Hugging Face
Det er fire modeller å velge mellom og alle har åpen kildekode:
- NorMistral 7b warm
- NorMistral 7b warm-instruct
- NorMistral 7b scratch
- NorBLOOM 7b scratch
De er lastet ned over 11 tusen ganger.
Modellene er foreløpig laget for forskere og utviklere. De krever litt teknisk kompetanse å ta i bruk. De er ikke like brukervennlige som ChatGPT enda.7 UiO
Du kan kjøre modellene lokalt ved å laste ned programmet LM Studio.8 LM Studio
Deretter må du laste ned filene som trengs for å kjøre modellen i dette programmet.
NORA skal sikre språkets fremtid
På sikt ønsker NORA å etablere en nasjonal infrastruktur for å utvikle og bruke store norske språkmodeller.
NORA står for «Norwegian Artificial Intelligence Research Consortium».
Det er et konsortium med norske universiteter og forskningssentre:
I 2023 søkte de Forskningsrådet om finansiering til å videreutvikle norske språkmodeller. Prosjektet har et budsjett på 212 millioner kroner, hvorav 62 millioner er egeninnsats fra partnerne.9 NORA
— Store språkmodeller vil i økende grad fungere som grunnleggende infrastruktur (…)
Erik Velldal, UiO10 UiO
Formålet er å bevare norsk språk og kultur med AI. Modellene blir fremtidens infrastruktur, ifølge NORA.
Språkmodellene skal bli et kollektivt gode og en infrastruktur som forskningsmiljøer, offentlig sektor og næringsliv kan bygge videre på.
Ifølge søknaden er prosjektet et inkluderende initiativ som vil involvere andre fagmiljøer. De planlegger å samarbeide med nordiske AI-initiativer.11 NORA