Åpne, norske språkmodeller er her
I 2024 har flere norske språkmodeller kommet. De kan brukes av bedrifter, organisasjoner og privatpersoner. De er gratis, åpne og bryter ikke opphavsretten.
Men hvorfor er det så få som snakker om de? Og kan de måle seg med gigantene som ChatGPT og Google Gemini?
I denne artikkelen skal vi se nærmere på de tre viktigste norske språkmodellene: NorLLM, NorGPT og NORA.LLM.
«KI er i ferd med å bli et globalt industripolitisk race.»
– Sven Størmer Thaulow, styreleder i NorwAI1 NTNU: NorwAI
NorLLM
NorLLM står for «Norwegian Large Language Models».
Det er en samling med tre store språkmodeller utviklet av NorwAI, et av Norges fremste forskningssentre for kunstig intelligens.2 NorwAI
De tre modellene som utgjør NorLLM er:
- NorGPT-7B (basert på GPT-2 fra OpenAI)
- Llama2-7B (basert på Meta sin åpne Llama2-modell)
- Mistral-7B (basert på den åpne Mistral-modellen)
NorLLM er laget for å være åpne og fritt tilgjengelige for alle, også til kommersielle formål.
Saken fortsetter under bildet.
Samtidig lover NorwAI at AI-en er trygg å bruke: Den vil ikke bryte med personvern eller opphavsrett.
Målet er å stille modellene til rådighet for det norske samfunnet slik at vi ikke overlater språkutviklingen til utenlandske teknologiselskaper.3 NTNU: NorLLM
«Vi må ikke overlate språkutviklingen til utenlandske teknologiselskaper.»
– Åse Wetås, direktør i Språkrådet, ved forhåndspremieren til NorLLM
Når blir NorLLM tilgjengelig?
Modellene ble vist frem på en førpremiere i Trondheim 14. februar 2024 og lanseres 15. mai.
Lanseringen finner sted ved Schibsteds kontorer i Oslo. Arrangementet organiseres av NTNU, SINTEF, Schibsted, med flere. Arrangementet er fulltegnet.4 SINTEF
Hvem utvikler NorLLM?
NorLLM utvikles av flere store aktører som NTNU, Schibsted, DNB, NRK, Telenor, UiO og SINTEF.
Her er en oversikt over partnerne i NorwAI:
NORA.LLM
NORA.LLM er en samling med store norske språkmodeller som ble lansert i februar 2024.5 UiO
Modellene er utviklet av UiO i samarbeid med Nasjonalbiblioteket og Sigma2.
NORA.LLM er derfor noe annet enn NorLLM, selv om navnene nesten er identiske.
«Dette er de største [modellene] vi har laget så langt og de er trent på over 30 milliarder ord.»
– Erik Velldal, professor ved UiO6 UiO
De fire modellene som utgjør NORA.LLM er:
- NorMistral 7b warm
- NorMistral 7b warm-instruct
- NorMistral 7b scratch
- NorBLOOM 7b scratch
UiO sier at modellene er fri for restriksjoner, siden de har åpen kildekode, åpen lisens og er tilgjengelig for alle. De trenes bare på lovlige data.7 UiO
Du kan lære mer om AI-en i denne videoen:
Når blir NORA.LLM tilgjengelig?
Modellene er tilgjengelige og kan lastes ned fra Hugging Face.8 Hugging Face
Du kan kjøre de lokalt på egen maskin.
Modellene krever litt teknisk kompetanse å ta i bruk, ifølge UiO.9 UiO
Hvem utvikler NORA.LLM?
Modellene utvikles først og fremst av språkteknologigruppa (LTG) ved UiO.
De støttes av Nasjonalbiblioteket, Sigma2 og NORA-konsortiet.
NORA består av norske universiteter og forskningssentre:10 NORA
NorGPT
NorGPT er den største norske språkmodellen. Den utvikles også av NorwAI, som lager NorLLM.11 NorGPT
NorGPT er to forskjellige modeller:
- NorGPT-7B: «Lillebror» som er en del av NorLLM.
- NorGPT-40B: «Storebror» som har 40 milliarder parametre.
I sammenligning har språkmodellene i NorLLM og NORA.LLM 7 milliarder parametre.
NorGPT-40B er det største prosjektet. Det har flere parametre og trenes på større datamengder. Denne modellen er overlegen, ifølge samtaler med NorwAI på NorLLM sin forhåndspremiere.
Men, den vil ta lengre tid å utvikle.
NorGPT er en grunnmodell som andre aktører kan bygge sine tjenester på.
NorGPT er utviklet av NTNU og kjøres på universitetets superdatamaskiner i Trondheim. Modellen fungerer både på bokmål og nynorsk og beskrives som svært fleksibel i bruk.
Når blir NorGPT tilgjengelig?
Det er ukjent. NorGPT-40B kommer nok ikke med det første.
NorGPT-7B kommer 15. mai som en del av NorLLM-familien.
AI blir nasjonal infrastruktur som skal bevare norsk
Per dags dato er språkmodellene i en testfase. De kan lastes ned og kjøres lokalt.
Men de er enda ikke blitt til nettbaserte tjenester, som ChatGPT eller Copilot.
Deres formål er å lage et grunnlag som bedrifter og offentlig sektor kan bruke for å lage ulike tjenester.
Samtidig er det ikke bare enkelttjenester det er snakk om.
Denne teknologien lager grunnlaget for en ny, norsk infrastruktur, ifølge UiO og NORA.13 UiO / NORA
Å bevare norsk
En annen viktig oppgave for språkmodellene er å bevare det norske språket, som Åse Wetås, direktør i Språkrådet, sier:
– Vi må ikke overlate språkutviklingen til utenlandske teknologiselskaper.
Dette støttes av professor Erik Velldal ved UiO:
– Det er mange problemer knyttet til tekgigantenes språkmodeller. De fremstår som sorte bokser for verden utenfor. Vi trenger norske alternativer.14 UiO
Og sist men ikke minst, understrekes poenget av Sven Størmer Thaulow, styreleder i NorwAI:
– Som en liten nasjon trenger vi kontroll på vår egen infrastruktur. KI er i ferd med å bli et globalt industripolitisk race. Det er ikke gitt at teknologien vil bli demokratisert.15 NTNU: NorwAI
Nasjonalbibliotekets rolle
Nasjonalbiblioteket er med i utviklingen av alle modellene som er nevnt.
De tilbyr norske tekster som kan brukes som lovlige treningsdata.
De utvikler også sine egne modeller, som heter NB-GPT-J-6B. De har 6 milliarder parametre og bruker GPT-J-teknologien fra EleutherAI.16 Nasjonalbiblioteket
AI-en er trent på data fra biblioteker og internett for å kunne forstå og skrive norsk tekst.
Det er enda ikke så mye informasjon om modellene.
Du kan laste de ned fra Hugging Face.17 Hugging Face
—
Det blir spennende å følge utviklingen videre!
Følg AIavisen for å se hvordan norske bedrifter og organisasjoner tar i bruk språkmodellene.
Endringslogg