Oppsummering
- De fleste AI-detektorer greier ikke å analysere norske tekster
- De mest lovende AI-detektorene er Smodin, Ekte.ai og ChatGPT
- AI-detektorer er ikke nøyaktige nok til å brukes av skoler eller universiteter for å vurdere oppgaver
Hva er en AI-detektor?
En AI-detektor er et program som kan oppdage tekster skrevet av kunstig intelligens.
Detektorene vurderer hvor sannsynlig det er at teksten er generert av kunstig intelligens (i prosent). Hvis detektoren er sikker på at en tekst er skrevet av AI, vil den melde at teksten er 100% AI-generert.
En AI-detektor kan i teorien oppdage kunstig intelligens i bilder, tekster, videoer og lydopptak.
Mange AI-detektorer bruker maskinlæring for å gjenkjenne mønstre.
Hvorfor bruker folk AI-detektorer?
Folk bruker AI-detektorer for å sjekke om en tekst er skrevet av AI.
Det kan være nyttig av flere grunner:
- For å se om en elev eller student har brukt AI for å skrive en oppgave
- For å se om en jobbsøker har brukt AI
- For å se om en ansatt har brukt AI på jobb
Det er flere situasjoner hvor det forventes at man skriver en tekst manuelt.
I de sammenhengene kan det være avslørende om noen har brukt kunstig intelligens.
Men er denne teknologien blitt moden? Og hvor nøyaktig er den i så fall?
Det ønsket jeg å finne ut av.
Målet med testen
Målet var å finne ut hvor gode AI-detektorer er på å skille mellom tekster skrevet av mennesker og ChatGPT.
Jeg valgte fem tekster fra Store Norske Leksikon (SNL).
For å være sikker på at tekstene var skrevet av mennesker, hentet jeg gamle versjoner publisert mellom 2018-2020.
Jeg genererte også fem AI-tekster med ChatGPT. AI-tekstene var like lange og dekket de samme temaene som tekstene fra SNL.
Deretter kopierte jeg 500 ord fra hver tekst og limte de inn i AI-detektorene.
Til slutt ba jeg ChatGPT analysere tekstene med følgende kommando:
Hva er sannsynligheten for at denne teksten er skrevet av AI? Bruk en skala fra 0-100% hvor 100% betyr at teksten er skrevet av AI med 100% sikkerhet. 0% betyr at du er helt sikker på at teksten er skrevet av mennesker. Ikke si 50%. Gjør en nøyaktig analyse: [tekst]
Hvilke AI-detektorer som ble testet
Jeg testet 8 AI-detektorer:
- ChatGPT (man kan spørre den om å være detektor)
- ZeroGPT
- Smodin
- Content At Scale
- Writer.com
- Medienor
- Sapling
- Ekte.ai
Jeg brukte gratisversjonene av disse detektorene. De er tilgjengelige for alle.
Tekstene som ble testet
Tekstene ble hentet fra Store Norske Leksikon.
Dette er de norske tekstene:
- SNL – Pukkellaks (versjon 32, 2019)
- SNL – Flom (versjon 27, 2020)
- SNL – Hekling (versjon 16, 2019)
- SNL – Glukose (versjon 12, 2018)
- SNL – Friidrett (versjon 54, 2020)
Jeg genererte fem ChatGPT-tekster om de samme temaene.
Kommando: Skriv en tekst på 500 ord om [Pukkellaks / Flom / Hekling / Glukose / Friidrett].
Resultater
Testene ble gjennomført 11. og 12. august, 2023.
Tabeller
Prosentene viser sannsynligheten for at teksten er skrevet av kunstig intelligens.
100 % vil si at detektoren er 100 % sikker på at teksten er av AI.
0 % betyr at detektoren mener teksten er skrevet av mennesker.
Tekster skrevet av ChatGPT burde ha høy AI-verdi (over 75 %). Tekster skrevet av mennesker burde ha lav AI-verdi (under 25 %). Alle verdier mellom 25 % og 75 % tolker jeg som usikkerhet i AI-detektoren.
Jeg har markert tallene som traff bra med grønn, og tallene som bommet fælt med rød.
Her er AI-detektorenes analyse av tekstene skrevet av mennesker:
Her er AI-detektorenes analyse av AI-tekstene:
Hovedfunn
Funn #1: De fleste AI-detektorene greide ikke å forstå de norske tekstene. Disse detektorene ga alle tekstene samme resultat: 0% sannsynlighet for å være laget av AI.
Detektorene som ikke forstod norske tekster var: ZeroGPT, Content At Scale, Writer.com, Medienor og Sapling.
Funn #2: Smodin ga tekstene skrevet av mennesker en AI-verdi på 44 %, i gjennomsnitt. AI-tekstene fikk 69 %, i gjennomsnitt.
Funn #3: ChatGPT ga tekstene skrevet av mennesker en AI-verdi på 35 %, i gjennomsnitt. AI-tekstene fikk 54 %, i gjennomsnitt.
Funn #4: Ekte.ai ga tekstene skrevet av mennesker en AI-verdi på 5%, i gjennomsnitt. AI-tekstene fikk 50 %, i gjennomsnitt.
Konklusjonen er at AI-tekster fikk høyest AI-verdi av alle detektorene. Ekte.ai var best på å gjenkjenne tekster av mennesker.
Detektorene greide likevel ikke å skille individuelle AI-tekster fra tekster skrevet av mennesker med høy nok sikkerhet.
Samtidig greide detektorene å skille tekster skrevet av mennesker fra AI-tekster hvis man sammenligner gjennomsnittene.
Vi kan derfor ikke stole på AI-detektorer når vi leter etter kunstig intelligens i individuelle tekster.
Begrensninger og refleksjoner
Dette er en avgrenset test med et lite utvalg tekster. Om man ønsker resultater som har statistisk og vitenskapelig validitet så må man teste hundrevis av tekster i ulike sjangre.
Man trenger med andre ord et større og mer representativt utvalg. Kanskje en ide for bachelorstudenter som er interesserte i kunstig intelligens?
Ellers er AI-tekstene uredigerte. Det kan være stor forskjell på en uredigert AI-tekst og en redigert AI-tekst.
Et notat om Ekte.ai
Ekte.ai ga ikke prosenter, men de beskrev resultatene kvalitativt.
Jeg tolket det slik:
- «Alt ser bra ut, ingen tegn til AI generert tekst» = 0 % AI
- «Inneholder mest sannsynlig ikke AI generert tekst» = 25 % AI
- «Inneholder kanskje AI generert tekst» = 50 % AI
- «Inneholder sannsynligvis AI generert tekst» = 75% AI