Bilde fra førpremieren til NorLLM i Trondheim. Foto: AIavisen.
Sammendrag
- NorLLM hadde førpremiere 14. februar.
- Her ble tre store språkmodeller vist frem.
- Modellene er: NorGPT-7B, Llama2-7B og Mistral-7B.
- Modellene lanseres 3. juni.
- I denne saken deler vi eksklusive detaljer om teknologien.
Dette er NorLLM
NorLLM står for «Norwegian Large Language Models». Det er en samling med tre store språkmodeller.
Store språkmodeller er teknologien som driver chatboter som ChatGPT og Google Gemini.
Vi vil med andre ord få norske alternativer til ChatGPT. Modellene vil stilles til rådighet for det norske samfunnet og norske selskaper.
Hvem utvikler NorLLM?
NorLLM er utviklet av NorwAI, et av Norges fremste forskningssentre for kunstig intelligens.
Initiativet har flere partnere som NTNU, Schibsted, DNB, NRK, Telenor, SINTEF, og flere.
![Slik fungerer NorLLM (eksklusive detaljer) 3 NorwAI partnere](https://aiavisen.no/wp-content/uploads/2024/01/NorwAI-partner-logoer.png)
Bilde: NorwAIs partnere.
Årsakene til at NorwAI utvikler NorLLM
På førpremieren i Trondheim presenterte NorwAI viktig informasjon om språkmodellene.
Her er en oppsummering av det som ble sagt av NorwAIs direktør, Jon Atle Gulla og Språkrådets direktør, Åse Wetås:
For å bevare det norske språket
«Vi må ikke overlate språkutviklingen til utenlandske teknologiselskaper»
– Åse Wetås, direktør i Språkrådet
Amerikanske chatboter som ChatGPT, Bing og Gemini er lite trent på det norske språket.
Dermed er de ikke så gode på norsk.
En av konsekvensene av dette er at de amerikanske modellene hallusinerer mer på norsk.
Derfor trengs norske modeller som er spesialiserte på det norske språket. De må trenes på allmennspråk og spesialisert fagspråk.
Det vil føre til at vi holder styringen på vår egen språkutvikling uten å legge det i hendene på internasjonale selskaper.
For å sikre kulturelle verdier
En annen utfordring med modeller som ChatGPT, er at de reflekterer amerikanske verdier. De har eksempelvis berøringsangst for en rekke temaer.
Norge trenger modeller som reflekterer våre verdier.
Det kan man styre i hvordan modellene vekter informasjon, hvilke data de trenes på, og hvilke begrensninger de får.
For å ha ryddige forhold
I motsetning til AI-er som ChatGPT og Midjourney, er NorLLM trent opp på lovlige data. Dermed bryter de ikke opphavsretten.
NorwAI har avtaler med innholdseiere (Nasjonalbiblioteket, mediebransjen, med flere)
– Vi skal ha ryddige forhold med tanke på opphavsrettsbeskyttede verk, sier Jon Atle Gulla.
Ved å kontrollere infrastrukturen vet man hvor dataene lagres, og hvordan modellene trenes.
For å sikre åpenhet og etisk bruk
De fleste chatboter har minimal åpenhet:
- Hva er kildene til dataene?
- Er de behandlet på riktig måte?
- Hva skjer med teksten du skriver inn i chatbotene?
Det er tatt mange snarveier for å trene de populære internasjonale modellene. Nå saksøkes OpenAI og Microsoft av flere selskaper for brudd på opphavsretten.1 New York Times
Ved å utvikle sikre og etiske modeller, slipper vi disse problemstillingene.
Om de tre modellene i NorLLM
I førpremieren beskrev Jon Atle Gulla de tre ulike språkmodellene.
NorGPT-7B, Llama2-7B og Mistral-7B
Dette er de tre modellene som utgjør NorLLM:
![Slik fungerer NorLLM (eksklusive detaljer) 4 NorLLM tre modeller](https://aiavisen.no/wp-content/uploads/2024/02/NorLLM-tre-modeller.jpg)
De er bygd på tre ulike arkitekturer:
- GPT-2 (fra ChatGPT)
- Llama2 (Meta sin åpne modell)
- Mistral (åpen modell)
Modellene har 7 milliarder parametre, noe som betyr at de er relativt små modeller.
Fordelen med at modellene er små, er at de kan kjøres lokalt på vanlige PC-er.
De er trent på et datasett som har over 30 milliarder norske ord. Datasettet er fritt for vernede verk, og bryter ikke opphavsretten.
96,7 % av tekstene er på bokmål, mens 3,3 % er på nynorsk.
![Slik fungerer NorLLM (eksklusive detaljer) 5 Treningsdataene til NorLLM](https://aiavisen.no/wp-content/uploads/2024/02/Treningsdataene-til-NorLLM.jpg)
Hva modellene kan brukes til
I presentasjonen sin fortalte Jon Atle Gulla at de tre språkmodellene kan brukes:
- Til å skrive, oppsummere og behandle tekst (som ChatGPT)
- Som et spørresystem (virtuelle assistenter, søk i virksomhetsdata)
- Som et dialogsystem (f.eks. til kundebehandling)
Utover dette kan modellene videreutvikles og trenes videre på andre datasett. Da kan de få spesialiserte formål.
Modellene beskrives som «fleksible». Bildet viser hvordan de kan brukes i organisasjoner:
![Slik fungerer NorLLM (eksklusive detaljer) 6 Fleksible sma sprakmodeller](https://aiavisen.no/wp-content/uploads/2024/02/Fleksible-sma-sprakmodeller.jpg)
Storebror: NorGPT-40B
Utover disse fleksible småmodellene så jobbes det med grunnmodellen NorGPT-40B.
Det er et større prosjekt som har tilgang til mye større datamengder. Denne modellen er overlegen, men vil ta lengre tid å utvikle.
Ofte stilte spørsmål om NorLLM
Her er svar på ofte stilte spørsmål med informasjon som ble delt på førpremieren.
Når lanseres NorLLM?
Vil NorwAI tilby NorLLM som en online tjeneste?
Nei. NorLLM må lastes ned og kjøres lokalt på en maskin.
Modellene kan videreutvikles av norske bedrifter og offentlig sektor.
Endringslogg