Alt om NorGPT: Den første norske språkmodellen

Den norske versjonen av ChatGPT er på vei. AI-en skal ta hensyn til personvern og datasikkerhet. Den danner grunnlaget for Norges utvikling innen kunstig intelligens.

NorGPT

Sammendrag

  • NorGPT er Norges svar på ChatGPT
  • Modellen er utviklet av NorwAI, et forskningssenter på NTNU
  • AI-en trenes på norsk infrastruktur og norske data
  • NorwAI skal stille NorGPT til rådighet for det norske samfunnet
  • Dataene beholdes i Norge, og man kan sikre trygg bruk og bevaring av personvern

Hva er NorGPT?

NorGPT er Norges egen språkmodell. Den er utviklet på NTNU ved forskningssenteret NorwAI i samarbeid med selskaper som Schibsted og DnB.

AI-en er trent på norske data og skal være en modell med full åpenhet bygd på norske verdier.

Modellen fungerer på samme måte som ChatGPT. Det er en chatbot som tolker og skriver tekst basert på kunstig intelligens.

NorGPT genererer tekst
Jon Atle Gulla, Direktør for NorwAI, viser frem NorGPT på Arendalsuka.1 Video

Det som skiller NorGPT fra ChatGPT er følgende:

  • Den kunstige intelligensen er trent på norske data
  • AI-en er eid av det offentlige i samarbeid med norske selskaper
  • Siden chatboten er helnorsk, kan den tilpasses til nasjonale formål og behov

NorGPT er laget av NorwAI

NorwAI står for Norwegian Research Center for AI Innovation.2 https://www.ntnu.edu/norwai

Det er et forskningssenter som ligger på NTNU. Senteret har 16 partnere, inkludert NTNU, UiO, DNB, SINTEF, NRK og Schibsted.

Slik beskriver NorwAI seg selv på NTNU sine nettsider (oversatt):

«[Vi skal] transformere norsk industri, på områder som er viktige for Norge. Eksempelvis: skipsfart, ren energi og samhandling med befolkningen. Vi vil fremme AI-innovasjon i små og mellomstore bedrifter, oppstartsbedrifter og organisasjoner via innovasjonsnettverk.»3 https://www.ntnu.edu/norwai/partners

NorGPT er lokalisert på NTNU i Trondheim. Språkmodellen kjøres på superdatamaskinene som står der.

Hvorfor trenger Norge NorGPT?

Språkmodeller som ChatGPT er på vei inn i samfunnet. Utviklingen er svimlende rask.

Chatboter brukes i apper som SnapChat, men også i helsesektoren, personlige assistenter, byggsektoren, med mer.

En av de største utfordringene med ChatGPT er at den er amerikansk. 

Det vil si at alt som skrives inn i ChatGPT blir tilgjengelig for OpenAI. Av den grunn anbefaler OpenAI å ikke dele sensitiv informasjon med ChatGPT.

Dette betyr at Norge og andre land ikke kan bruke ChatGPT til sensitive formål. Det offentlige kan ikke legge inn helseopplysninger eller persondata i ChatGPT.

Dette begrenser hva vi kan bruke AI-en til.

Derfor trenger vi vår egen AI som følger norske regler og verdier.

NorGPT skal stilles til rådighet for det norske samfunnet

NorwAI ønsker å gjøre NorGPT tilgjengelig for ulike nasjonale formål.

NorGPT er en grunnmodell. Det er et fundament som andre leverandører kan bygge sine tjenester på. Da snakker vi om digitale tjenester, helsetjenester, med mer.

Disse leverandørene trenger en norsk modell på norsk infrastruktur.

Modellen fungerer både på bokmål og nynorsk. Den er svært fleksibel på hva den kan brukes til.

Å bevare det norske språket

Språk holdes i live ved å brukes aktivt. 

Per dags dato styres de store, internasjonale språkmodellene av en håndfull selskaper. 

De bestemmer hvordan språkmodellene skal utformes, og hvilke språk som skal inkluderes og ekskluderes. ChatGPT har for eksempel ingen økonomiske insentiver til å bli knallgod på nynorsk.

Hvis språkmodeller blir fremtidens standard, får disse selskapene enorm makt i vår digitale verden. 

Dette kan skape utfordringer for det norske språket og dets varianter. 

NorGPT vil fungere som Norges språkmodell. Hvis modellen får tilgang til nok data, kan den utvikles til ulike formål. På den måten kan den bevare språket.

Slik fungerer NorGPT

Generelt om språkmodeller

En språkmodell bruker statistikk for å spå hva det beste svaret er til en kommando.

Se på det som en avansert autofullfører:

ChatGPT Google Autofullfor
Google autocomplete-AI prøver å gjette hva setningen skal bli.

En språkmodell har med andre ord ikke følelser. 

Det er en komplisert statistisk modell som forsøker å regne seg frem til det beste svaret for brukeren.

Hvilke funksjoner NorGPT har

Likt ChatGPT, kan NorGPT:

  • Skrive sammendrag og fortsettelser av tekster
  • Skrive nye tekster basert på kunnskapen den er trent på
  • Fungere som en live chatbot på nettsider
  • Den kan trenes til bruk innen helse, økonomi, og så videre

Kanskje vi får en NorGPT-lege eller -psykolog i fremtiden?

Man kan kode modellen slik at den svarer mer balansert eller mer kreativt. Jo mer kreativ den er, jo større sannsynlighet for at svarene bommer.

Om NorGPT
Jon Atle Gulla, Direktør for NorwAI, viser frem NorGPT på Arendalsuka. Modellen kan justeres og brukes til ulike formål. 4 Video

Verdiene til NorGPT

Problemet med ChatGPT er at den er flerspråklig, men enkulturell. Den reflekterer amerikanske standarder og verdier.

NorGPT lages for det norske samfunnet. Den skal være åpen og etterrettelig. 

Det vil si at man må passe på hvilke data den trenes på. Man må også justere hvordan dataene tolkes og brukes.

Hvis det er feil eller fordommer i informasjonen NorGPT har tilgang til, vil den videreføre disse feilene.

Dette er en svakhet med alle språkmodeller. Det forklarer hvorfor de kan “hallusinere” (lyve).

NorGPT verdier
Under Arendalsuka viste NorwAI frem verdigrunnlaget til NorGPT. 5 Video

Hvordan Norwai har laget NorGPT-språkmodellen

En språkmodell må gjennom 4 steg for å bli komplett:

  1. Basismodell: AI-en trenes på et datagrunnlag (kan være tekster, videoer, lydklipp)
  2. Finjustering: AI-en får beskjed om hvordan den skal vekte ulike data og svar
  3. Innretting (“alignment”): Modellen innrettes det norske samfunnets verdier, normer og interesser.
  4. Trygghet: Man må forsikre seg at svarene som gis av modellen er i henhold til regler og lover. Fordommer og feil svar fjernes.
Hvordan bygge sprakmodeller i fire steg
Jon Atle Gulla, Direktør for NorwAI, forteller at en språkmodell må tilpasses og justeres før den er trygg å bruke. Bildet er tatt fra NorwAIs presentasjon under Arendalsuka 2023. 6 Video

Det gjenstår tre store utfordringer for NorGPT:

1: Infrastruktur og ansatte

NorwAI trenger større infrastruktur som takler større modeller med flere parametre.

Med større infrastruktur så menes datakraft fra superdatamaskiner. Per dags dato brukes kapasiteten på NTNU til det fulle.

Utover datakraft er det behov for flere eksperter som kan jobbe med dette på fulltid.

2: Reguleringer og standarder

NorwAI etterspør reguleringer fra staten. De trenger retningslinjer for hvordan modellen skal utvikles. 

3: Større datasett

Et datasett er informasjonen og kunnskapen som NorGPT trenes på. 

NorwAI informer om at de å doble datasettet. 

Derfor samarbeider de med forlag og medieindustrien for å få tilgang til mer data.

Skroll til toppen