Rapport: Feil i nesten halvparten av svarene fra AI

ChatGPT, Gemini og Copilot tar feil i nesten halvparten av svarene sine. Det viser en internasjonal rapport fra BBC, NRK og 20 andre kringkastere.

ChatGPT search

45 prosent av AI-svar inneholder feil

Chatboter har en tendens til å hallusinere. Det vil si at de kan ta feil og dikte opp informasjon.

Nå har 22 kringkastere testet ut flere populære chatboter.1 BBC og European Broadcasting Union

NRK er en av kringkasterne som var med i testen.

Resultatene viser at 45 prosent av svarene fra chatbotene hadde minst én alvorlig feil.

Om rapporten

Google Gemini hadde flest kildefeil

Gemini skåret dårligst i en av testene om kildehenvisninger.

72 prosent av svarene fra Gemini hadde alvorlige feil i kildehenvisningen.

Det er nesten tre ganger så mange alvorlige feil som de andre assistentene.

Feil i nesten halvparten av svarene fra AI Gemini
Bilde fra News Integrity in AI Assistants av BBC og European Broadcasting Union.3 EBU – Rapport (PDF)

Enten manglet kildene helt, eller så støttet ikke kildene påstandene i svaret.

Perplexity og Copilot hadde færrest kildefeil (15 %).

Gratisversjoner ble brukt 💡

I testene ble det brukt gratisversjonene til AI-verktøyene.

I AIavisens erfaring er disse mye svakere enn de betalte versjonene, fordi gratis chatboter bruker svakere språkmodeller.

Feilene kan få konsekvenser

Studien viste til flere eksempler på faktafeil.

ChatGPT svarte at pave Frans fortsatt var pave i mai, selv om han døde i april.

Gemini og Copilot gjorde samme feil.

ChatGPT faktafeil paven 2025
Bilde fra News Integrity in AI Assistants av BBC og European Broadcasting Union.4 EBU – Rapport (PDF)

I tillegg hevdet Perplexity at surrogati er forbudt i Tsjekkia.

I virkeligheten er det verken forbudt eller tillatt.

Eksempel fra Norge: Tromsø Kommune

NRK feil i kilder fra Tromso Kommune
Faksimile fra NRK.6 NRK

Chatboter skjuler feil

Et vanlig problem er at AI-assistenter svarer med stor selvtillit, selv når informasjonen er feil.

I bare 17 tilfeller svarte chatbotene at de ikke visste svaret.

Og de ble stilt over 3000 spørsmål hvor 45 % av svarene ble vist å inneholde feil.

Det er altså stor avstand mellom chatbotenes selvsikkerhet og nøyaktighet.

Modellene er trent til å være selvsikre

Ifølge OpenAI er språkmodeller trent til å gjette fremfor å innrømme at de ikke vet.7 The Register

Journalistene som evaluerte svarene i rapporten, påpekte at chatbotene ofte skriver som om de har autoritet.

De gir deg velskrevne svar med riktig stil og struktur.

Men bak fasaden er det problemer med kildene og feilinformasjon som presenteres som fakta.

Dikter opp sitater

12 prosent av svarene med direkte sitater hadde alvorlige feil i sitatene.

Noen sitater ble justert. Andre ble diktet opp.

Hva er løsningen?

Rapporten konkluderer med at man må være skeptisk til chatbotene.

AI kan være nyttig i riktig kontekst, og med riktig forståelse.

Samtidig oppfordres tekgigantene til å forbedre tjenestene sine.

Forfatterne ber forskere og kodere om å ta disse problemene på alvor.

Språkmodellene som driver chatbotene bør trenes på et annet vis for å vise til riktig informasjon, eller i det minste ikke svare.

Skroll til toppen