Test: Greier AI-detektorer å oppdage norske tekster skrevet av AI?

Oppsummering

De fleste AI-detektorer greier ikke å analysere norske tekster
De mest lovende AI-detektorene er Smodin, Ekte.ai og ChatGPT
AI-detektorer er ikke nøyaktige nok til å brukes av skoler eller universiteter for å vurdere oppgaver

Hva er en AI-detektor?

En AI-detektor er et program som kan oppdage tekster skrevet av kunstig intelligens.

Detektorene vurderer hvor sannsynlig det er at teksten er generert av kunstig intelligens (i prosent). Hvis detektoren er sikker på at en tekst er skrevet av AI, vil den melde at teksten er 100% AI-generert.

En AI-detektor kan i teorien oppdage kunstig intelligens i bilder, tekster, videoer og lydopptak.

Mange AI-detektorer bruker maskinlæring for å gjenkjenne mønstre.

Hvorfor bruker folk AI-detektorer?

Folk bruker AI-detektorer for å sjekke om en tekst er skrevet av AI.

Det kan være nyttig av flere grunner:

For å se om en elev eller student har brukt AI for å skrive en oppgave
For å se om en jobbsøker har brukt AI
For å se om en ansatt har brukt AI på jobb

Det er flere situasjoner hvor det forventes at man skriver en tekst manuelt.

I de sammenhengene kan det være avslørende om noen har brukt kunstig intelligens.

Men er denne teknologien blitt moden? Og hvor nøyaktig er den i så fall?

Det ønsket jeg å finne ut av.

Målet med testen

Målet var å finne ut hvor gode AI-detektorer er på å skille mellom tekster skrevet av mennesker og ChatGPT.

Jeg valgte fem tekster fra Store Norske Leksikon (SNL).

For å være sikker på at tekstene var skrevet av mennesker, hentet jeg gamle versjoner publisert mellom 2018-2020.

Jeg genererte også fem AI-tekster med ChatGPT. AI-tekstene var like lange og dekket de samme temaene som tekstene fra SNL.

Deretter kopierte jeg 500 ord fra hver tekst og limte de inn i AI-detektorene.

Smodin analyse utdrag 1 — Et eksempel på en AI-detektor som analyserer en AI-tekst (Smodin)

Til slutt ba jeg ChatGPT analysere tekstene med følgende kommando:
Hva er sannsynligheten for at denne teksten er skrevet av AI? Bruk en skala fra 0-100% hvor 100% betyr at teksten er skrevet av AI med 100% sikkerhet. 0% betyr at du er helt sikker på at teksten er skrevet av mennesker. Ikke si 50%. Gjør en nøyaktig analyse: [tekst]

Hvilke AI-detektorer som ble testet

Jeg testet 8 AI-detektorer:

ChatGPT (man kan spørre den om å være detektor)
ZeroGPT
Smodin
Content At Scale
Writer.com
Medienor
Sapling
Ekte.ai

Jeg brukte gratisversjonene av disse detektorene. De er tilgjengelige for alle.

Tekstene som ble testet

Tekstene ble hentet fra Store Norske Leksikon.

Dette er de norske tekstene:

Jeg genererte fem ChatGPT-tekster om de samme temaene.

Kommando: Skriv en tekst på 500 ord om [Pukkellaks / Flom / Hekling / Glukose / Friidrett].

Resultater

Testene ble gjennomført 11. og 12. august, 2023.

Tabeller

Prosentene viser sannsynligheten for at teksten er skrevet av kunstig intelligens.

100 % vil si at detektoren er 100 % sikker på at teksten er av AI.
0 % betyr at detektoren mener teksten er skrevet av mennesker.

Tekster skrevet av ChatGPT burde ha høy AI-verdi (over 75 %). Tekster skrevet av mennesker burde ha lav AI-verdi (under 25 %). Alle verdier mellom 25 % og 75 % tolker jeg som usikkerhet i AI-detektoren.

Jeg har markert tallene som traff bra med grønn, og tallene som bommet fælt med rød.

Her er AI-detektorenes analyse av tekstene skrevet av mennesker:

Her er AI-detektorenes analyse av AI-tekstene:

AI detektorer tekster kunstig intelligens

Hovedfunn

Funn #1: De fleste AI-detektorene greide ikke å forstå de norske tekstene. Disse detektorene ga alle tekstene samme resultat: 0% sannsynlighet for å være laget av AI.

Detektorene som ikke forstod norske tekster var: ZeroGPT, Content At Scale, Writer.com, Medienor og Sapling.

Funn #2: Smodin ga tekstene skrevet av mennesker en AI-verdi på 44 %, i gjennomsnitt. AI-tekstene fikk 69 %, i gjennomsnitt.

Funn #3: ChatGPT ga tekstene skrevet av mennesker en AI-verdi på 35 %, i gjennomsnitt. AI-tekstene fikk 54 %, i gjennomsnitt.

Funn #4: Ekte.ai ga tekstene skrevet av mennesker en AI-verdi på 5%, i gjennomsnitt. AI-tekstene fikk 50 %, i gjennomsnitt.

Konklusjonen er at AI-tekster fikk høyest AI-verdi av alle detektorene. Ekte.ai var best på å gjenkjenne tekster av mennesker.

Detektorene greide likevel ikke å skille individuelle AI-tekster fra tekster skrevet av mennesker med høy nok sikkerhet.

Samtidig greide detektorene å skille tekster skrevet av mennesker fra AI-tekster hvis man sammenligner gjennomsnittene.

Vi kan derfor ikke stole på AI-detektorer når vi leter etter kunstig intelligens i individuelle tekster.

Begrensninger og refleksjoner

Dette er en avgrenset test med et lite utvalg tekster. Om man ønsker resultater som har statistisk og vitenskapelig validitet så må man teste hundrevis av tekster i ulike sjangre.

Man trenger med andre ord et større og mer representativt utvalg. Kanskje en ide for bachelorstudenter som er interesserte i kunstig intelligens?

Ellers er AI-tekstene uredigerte. Det kan være stor forskjell på en uredigert AI-tekst og en redigert AI-tekst.

Et notat om Ekte.ai

Ekte.ai ga ikke prosenter, men de beskrev resultatene kvalitativt.

Jeg tolket det slik:

«Alt ser bra ut, ingen tegn til AI generert tekst» = 0 % AI
«Inneholder mest sannsynlig ikke AI generert tekst» = 25 % AI
«Inneholder kanskje AI generert tekst» = 50 % AI
«Inneholder sannsynligvis AI generert tekst» = 75% AI

Test: Greier AI-detektorer å oppdage norske tekster skrevet av AI?

Oppsummering

Hva er en AI-detektor?

Hvorfor bruker folk AI-detektorer?

Målet med testen