45 prosent av AI-svar inneholder feil
Chatboter har en tendens til å hallusinere. Det vil si at de kan ta feil og dikte opp informasjon.
Nå har 22 kringkastere testet ut flere populære chatboter.1 BBC og European Broadcasting Union
NRK er en av kringkasterne som var med i testen.
Resultatene viser at 45 prosent av svarene fra chatbotene hadde minst én alvorlig feil.
Om rapporten
Google Gemini hadde flest kildefeil
Gemini skåret dårligst i en av testene om kildehenvisninger.
72 prosent av svarene fra Gemini hadde alvorlige feil i kildehenvisningen.
Det er nesten tre ganger så mange alvorlige feil som de andre assistentene.

Enten manglet kildene helt, eller så støttet ikke kildene påstandene i svaret.
Perplexity og Copilot hadde færrest kildefeil (15 %).
Gratisversjoner ble brukt 💡
I testene ble det brukt gratisversjonene til AI-verktøyene.
I AIavisens erfaring er disse mye svakere enn de betalte versjonene, fordi gratis chatboter bruker svakere språkmodeller.
Feilene kan få konsekvenser
Studien viste til flere eksempler på faktafeil.
ChatGPT svarte at pave Frans fortsatt var pave i mai, selv om han døde i april.
Gemini og Copilot gjorde samme feil.

I tillegg hevdet Perplexity at surrogati er forbudt i Tsjekkia.
I virkeligheten er det verken forbudt eller tillatt.
Eksempel fra Norge: Tromsø Kommune

Chatboter skjuler feil
Et vanlig problem er at AI-assistenter svarer med stor selvtillit, selv når informasjonen er feil.
I bare 17 tilfeller svarte chatbotene at de ikke visste svaret.
Og de ble stilt over 3000 spørsmål hvor 45 % av svarene ble vist å inneholde feil.
Det er altså stor avstand mellom chatbotenes selvsikkerhet og nøyaktighet.
Modellene er trent til å være selvsikre
Ifølge OpenAI er språkmodeller trent til å gjette fremfor å innrømme at de ikke vet.7 The Register
Journalistene som evaluerte svarene i rapporten, påpekte at chatbotene ofte skriver som om de har autoritet.
De gir deg velskrevne svar med riktig stil og struktur.
Men bak fasaden er det problemer med kildene og feilinformasjon som presenteres som fakta.
◆ Dikter opp sitater
12 prosent av svarene med direkte sitater hadde alvorlige feil i sitatene.
Noen sitater ble justert. Andre ble diktet opp.
Hva er løsningen?
Rapporten konkluderer med at man må være skeptisk til chatbotene.
AI kan være nyttig i riktig kontekst, og med riktig forståelse.
Samtidig oppfordres tekgigantene til å forbedre tjenestene sine.
Forfatterne ber forskere og kodere om å ta disse problemene på alvor.
Språkmodellene som driver chatbotene bør trenes på et annet vis for å vise til riktig informasjon, eller i det minste ikke svare.


