Slik fungerer NorLLM (eksklusive detaljer)

Bilde fra førpremieren til NorLLM i Trondheim. Foto: AIavisen.

Sammendrag

NorLLM hadde førpremiere 14. februar.
Her ble tre store språkmodeller vist frem.
Modellene er: NorGPT-7B, Llama2-7B og Mistral-7B.
Modellene lanseres 3. juni.
I denne saken deler vi eksklusive detaljer om teknologien.

Dette er NorLLM

NorLLM står for «Norwegian Large Language Models». Det er en samling med tre store språkmodeller.

Store språkmodeller er teknologien som driver chatboter som ChatGPT og Google Gemini.

Vi vil med andre ord få norske alternativer til ChatGPT. Modellene vil stilles til rådighet for det norske samfunnet og norske selskaper.

Hvem utvikler NorLLM?

NorLLM er utviklet av NorwAI, et av Norges fremste forskningssentre for kunstig intelligens.

Initiativet har flere partnere som NTNU, Schibsted, DNB, NRK, Telenor, SINTEF, og flere.

Bilde: NorwAIs partnere.

Årsakene til at NorwAI utvikler NorLLM

På førpremieren i Trondheim presenterte NorwAI viktig informasjon om språkmodellene.

Her er en oppsummering av det som ble sagt av NorwAIs direktør, Jon Atle Gulla og Språkrådets direktør, Åse Wetås:

For å bevare det norske språket

«Vi må ikke overlate språkutviklingen til utenlandske teknologiselskaper»
– Åse Wetås, direktør i Språkrådet

Amerikanske chatboter som ChatGPT, Bing og Gemini er lite trent på det norske språket.

Dermed er de ikke så gode på norsk.

En av konsekvensene av dette er at de amerikanske modellene hallusinerer mer på norsk.

Derfor trengs norske modeller som er spesialiserte på det norske språket. De må trenes på allmennspråk og spesialisert fagspråk.

Det vil føre til at vi holder styringen på vår egen språkutvikling uten å legge det i hendene på internasjonale selskaper.

For å sikre kulturelle verdier

En annen utfordring med modeller som ChatGPT, er at de reflekterer amerikanske verdier. De har eksempelvis berøringsangst for en rekke temaer.

Norge trenger modeller som reflekterer våre verdier.

Det kan man styre i hvordan modellene vekter informasjon, hvilke data de trenes på, og hvilke begrensninger de får.

For å ha ryddige forhold

I motsetning til AI-er som ChatGPT og Midjourney, er NorLLM trent opp på lovlige data. Dermed bryter de ikke opphavsretten.

NorwAI har avtaler med innholdseiere (Nasjonalbiblioteket, mediebransjen, med flere)

– Vi skal ha ryddige forhold med tanke på opphavsrettsbeskyttede verk, sier Jon Atle Gulla.

Ved å kontrollere infrastrukturen vet man hvor dataene lagres, og hvordan modellene trenes.

For å sikre åpenhet og etisk bruk

De fleste chatboter har minimal åpenhet:

Hva er kildene til dataene?
Er de behandlet på riktig måte?
Hva skjer med teksten du skriver inn i chatbotene?

Det er tatt mange snarveier for å trene de populære internasjonale modellene. Nå saksøkes OpenAI og Microsoft av flere selskaper for brudd på opphavsretten.¹

Ved å utvikle sikre og etiske modeller, slipper vi disse problemstillingene.

Om de tre modellene i NorLLM

I førpremieren beskrev Jon Atle Gulla de tre ulike språkmodellene.

NorGPT-7B, Llama2-7B og Mistral-7B

Dette er de tre modellene som utgjør NorLLM:

De er bygd på tre ulike arkitekturer:

GPT-2 (fra ChatGPT)
Llama2 (Meta sin åpne modell)
Mistral (åpen modell)

Modellene har 7 milliarder parametre, noe som betyr at de er relativt små modeller.

Fordelen med at modellene er små, er at de kan kjøres lokalt på vanlige PC-er.

De er trent på et datasett som har over 30 milliarder norske ord. Datasettet er fritt for vernede verk, og bryter ikke opphavsretten.

96,7 % av tekstene er på bokmål, mens 3,3 % er på nynorsk.

Treningsdataene til NorLLM — Foto: AIavisen

Hva modellene kan brukes til

I presentasjonen sin fortalte Jon Atle Gulla at de tre språkmodellene kan brukes:

Til å skrive, oppsummere og behandle tekst (som ChatGPT)
Som et spørresystem (virtuelle assistenter, søk i virksomhetsdata)
Som et dialogsystem (f.eks. til kundebehandling)

Utover dette kan modellene videreutvikles og trenes videre på andre datasett. Da kan de få spesialiserte formål.

Modellene beskrives som «fleksible». Bildet viser hvordan de kan brukes i organisasjoner:

Fleksible sma sprakmodeller — Foto: AIavisen

Storebror: NorGPT-40B

Utover disse fleksible småmodellene så jobbes det med grunnmodellen NorGPT-40B.

Det er et større prosjekt som har tilgang til mye større datamengder. Denne modellen er overlegen, men vil ta lengre tid å utvikle.

Ofte stilte spørsmål om NorLLM

Her er svar på ofte stilte spørsmål med informasjon som ble delt på førpremieren.

Når lanseres NorLLM?

NorLLM lanseres 3. juni 2024.

Vil NorwAI tilby NorLLM som en online tjeneste?

Nei. NorLLM må lastes ned og kjøres lokalt på en maskin.

Modellene kan videreutvikles av norske bedrifter og offentlig sektor.

Endringslogg

Her er en oversikt over endringene vi har gjort i artikkelen:

VIS MER

Sammendrag

Dette er NorLLM

Hvem utvikler NorLLM?

Årsakene til at NorwAI utvikler NorLLM

For å bevare det norske språket

For å sikre kulturelle verdier

For å ha ryddige forhold

For å sikre åpenhet og etisk bruk

Om de tre modellene i NorLLM

NorGPT-7B, Llama2-7B og Mistral-7B

Hva modellene kan brukes til

Storebror: NorGPT-40B

Ofte stilte spørsmål om NorLLM

Når lanseres NorLLM?

Vil NorwAI tilby NorLLM som en online tjeneste?

Om forfatteren

Adam Tzur

Slik fungerer NorLLM (eksklusive detaljer)

Sammendrag

Dette er NorLLM

Hvem utvikler NorLLM?

Årsakene til at NorwAI utvikler NorLLM

For å bevare det norske språket

For å sikre kulturelle verdier

For å ha ryddige forhold

For å sikre åpenhet og etisk bruk

Om de tre modellene i NorLLM

NorGPT-7B, Llama2-7B og Mistral-7B

Hva modellene kan brukes til

Storebror: NorGPT-40B

Ofte stilte spørsmål om NorLLM

Når lanseres NorLLM?

Vil NorwAI tilby NorLLM som en online tjeneste?

Del saken

Om forfatteren

Adam Tzur

Les også