45 prosent av AI-svar inneholder feil

Chatboter har en tendens til å hallusinere. Det vil si at de kan ta feil og dikte opp informasjon.

Nå har 22 kringkastere testet ut flere populære chatboter.¹

NRK er en av kringkasterne som var med i testen.

Resultatene viser at 45 prosent av svarene fra chatbotene hadde minst én alvorlig feil.

Om rapporten

Fire av de mest brukte AI-assistentene ble testet mellom mai og juni 2025.

VIS MER

Google Gemini hadde flest kildefeil

Gemini skåret dårligst i en av testene om kildehenvisninger.

72 prosent av svarene fra Gemini hadde alvorlige feil i kildehenvisningen.

Det er nesten tre ganger så mange alvorlige feil som de andre assistentene.

Feil i nesten halvparten av svarene fra AI Gemini — Bilde fra News Integrity in AI Assistants av BBC og European Broadcasting Union.³

Enten manglet kildene helt, eller så støttet ikke kildene påstandene i svaret.

Perplexity og Copilot hadde færrest kildefeil (15 %).

Gratisversjoner ble brukt 💡

I testene ble det brukt gratisversjonene til AI-verktøyene.

I AIavisens erfaring er disse mye svakere enn de betalte versjonene, fordi gratis chatboter bruker svakere språkmodeller.

Feilene kan få konsekvenser

Studien viste til flere eksempler på faktafeil.

ChatGPT svarte at pave Frans fortsatt var pave i mai, selv om han døde i april.

Gemini og Copilot gjorde samme feil.

ChatGPT faktafeil paven 2025 — Bilde fra News Integrity in AI Assistants av BBC og European Broadcasting Union.⁴

I tillegg hevdet Perplexity at surrogati er forbudt i Tsjekkia.

I virkeligheten er det verken forbudt eller tillatt.

Eksempel fra Norge: Tromsø Kommune

Tromsø kommune fikk oppleve konsekvensen av AI-feil tidligere i år.

VIS MER

NRK feil i kilder fra Tromso Kommune — Faksimile fra NRK.⁶

Chatboter skjuler feil

Et vanlig problem er at AI-assistenter svarer med stor selvtillit, selv når informasjonen er feil.

I bare 17 tilfeller svarte chatbotene at de ikke visste svaret.

Og de ble stilt over 3000 spørsmål hvor 45 % av svarene ble vist å inneholde feil.

Det er altså stor avstand mellom chatbotenes selvsikkerhet og nøyaktighet.

Modellene er trent til å være selvsikre

Ifølge OpenAI er språkmodeller trent til å gjette fremfor å innrømme at de ikke vet.⁷

Journalistene som evaluerte svarene i rapporten, påpekte at chatbotene ofte skriver som om de har autoritet.

De gir deg velskrevne svar med riktig stil og struktur.

Men bak fasaden er det problemer med kildene og feilinformasjon som presenteres som fakta.

◆ Dikter opp sitater

12 prosent av svarene med direkte sitater hadde alvorlige feil i sitatene.

Noen sitater ble justert. Andre ble diktet opp.

Hva er løsningen?

Rapporten konkluderer med at man må være skeptisk til chatbotene.

AI kan være nyttig i riktig kontekst, og med riktig forståelse.

Samtidig oppfordres tekgigantene til å forbedre tjenestene sine.

Forfatterne ber forskere og kodere om å ta disse problemene på alvor.

Språkmodellene som driver chatbotene bør trenes på et annet vis for å vise til riktig informasjon, eller i det minste ikke svare.

Rapport: Feil i nesten halvparten av svarene fra AI

45 prosent av AI-svar inneholder feil

Google Gemini hadde flest kildefeil

Feilene kan få konsekvenser

Chatboter skjuler feil

Modellene er trent til å være selvsikre

Hva er løsningen?

Om forfatteren

Adam Tzur

Rapport: Feil i nesten halvparten av svarene fra AI

45 prosent av AI-svar inneholder feil

Google Gemini hadde flest kildefeil

Feilene kan få konsekvenser

Chatboter skjuler feil

Modellene er trent til å være selvsikre

Hva er løsningen?

Del saken

Om forfatteren

Adam Tzur

Les også