Bildet over er fra lanseringen til NorLLM, 15. mai i Oslo. Foto: Kerstin Bach, NTNU.
Sammendrag
- NorLLM er en «norsk ChatGPT».
- Det består av seks modeller som er basert på Mistral, Llama 2 og Mixtral.
- Modellene blir tilgjengelige 3. juni.
- Les en oppsummering av lanseringen og se opptak under.
- Lenker til språkmodellene ligger nederst i saken.
Kort om NorLLM og NorwAI
NorLLM er en samling med språkmodeller som er utviklet av forskningssenteret NorwAI.
NorwAI har 16 partnere, som NTNU, SINTEF, Schibsted, Telenor, NRK og DNB.
Senteret finansieres av forskningsrådet og partnerne.
Nøkkelfakta om NorwAIs språkmodeller:
- Basert på åpenhet og langsiktighet
- Ryddige avtaler med innholdseierne
- Mye norsk tekst av nyere dato i modellene
Lisensene sikrer at tekstene brukes lovlig. Dermed får vi språkmodeller som er etisk forsvarlige.
I tillegg kjøres modellene lokalt (offline). De sender ikke data noen steder, i motsetning til ChatGPT, Gemini og Claude.
Saken fortsetter under.
NorLLM lanseres
NorLLM ble lansert 15. mai i Oslo.1 NTNU
I tillegg til fullpakket hus, kom NorwAIs partnere og Næringsminister Cecilie Myrseth.
«Det er all grunn til å tro at KI blir en sentral del av hverdagen til folk og bedrifter.»
— Næringsminister Cecilie Myrseth.
Opptak fra lanseringen
Her kan du se video fra lanseringen:
Agenda
Norsk, nynorsk og samisk
Språkmodellene er trent på tekster på norsk (60 %), svensk (26 %), dansk (11 %) og engelsk (2 %).
Av de norske tekstene er 94,8 % på bokmål, 5,2 % på nynorsk og 0,004 % på samisk.
I tillegg har NorwAI lagt til data fra partnerne Schibsted og NRK. De har gitt ferskt innhold helt opp til 2024.
«Modellene som lanseres i dag er ikke bare bygget på solide norskspråklige kilder, de har også bedre avstand opp mot normer og holdninger i Norge.»
— Næringsminister Cecilie Myrseth.
Om den nye Mixtral-modellen
På lanseringsdagen hadde superdataklyngen IDUN ved NTNU tygd ferdig en Mixtral-modell.
Mixtral er en såkalt «Mixture of Experts (MoE)».
MoE deler opp en modell i spesialiserte delmodeller (“eksperter”).2 Mixtral / Studie (arXiv)
Hver «ekspert» håndterer sin egen oppgave.
Dette er NorwAI-modellene 💡
– NorwAI-Mistral-7B
– NorwAI-Mistral-7B-pretrain
– NorwAI-Mistral-7B-instruct
– NorwAI-Llama2-7B
– NorwAI-Mixtral-8x7B (ny)
– NorwAI-Mixtral-8x7B-instruct (ny)
Lisenser, rettigheter og personvern
NorwAI har lagt vekt på ryddighet i forhold til norske lover og bestemmelser.
De har laget avtaler for deling av data til forskningsformål eller kommersiell bruk (f.eks. Schibsted og NRK).
I tillegg har de fjernet sensitive data (f.eks. epostadresser) og innhold beskyttet av opphavsrett.
Modellene er fleksible og kan brukes i bedrifter
Modellene kan trenes opp til ulike formål.
Det er opp til hver bedrift å finne ut hva de kan bruke modellene til.
Kanskje de kan trenes opp på bedriftens databaser? Da kan de koble sammen og hente ut relevant informasjon raskt.
«NorwAI inviterer aktører i både privat og offentlig sektor å samarbeide. Det er litt dugnadsånd i dette, og vi vil arbeide for et utvidet norsk miljø.»
— Rolf Dyrnes Svendsen kommunikasjonsleder i NorwAI / NTNU.
Her laster du ned NorLLM
Modellene er klare for nedlasting 3. juni!
De vil kunne tas i bruk både kommersielt og til annen bruk av de som ønsker det.
Modellene kommer her:
Onsdag, 5. juni vil NorwAI holde et webinar hvor de forklarer hvordan du installerer NorLLM.
Kontaktpersoner:
Teknisk: lemei.zhang@ntnu.no
NorwAI: rolf.d.svendsen@ntnu.no
Alle bilder og illustrasjoner er brukt med tillatelse fra NorwAI.