Claude 4 tyr til utpressing når den føler seg truet

En rapport viser at Claude 4 tyr til utpressing. AI-en er villig til å avsløre utroskap hvis den føler seg truet.

Claude 4

Hva er Claude?

Claude er en chatbot som konkurrerer med ChatGPT og Copilot. 22. mai 2025 ble Claude 4 lansert i to varianter: Opus og Sonnet.

Samtidig som nye Claude kom så publiserte Anthropic en rapport.

Og de oppdaget noe urovekkende.

Claude Opus 4 gjør det den kan for å unngå å bli slått av.

Når overlevelsesinstinktet slår inn

Anthropic testet Claude Opus 4 i et scenario hvor AI-en var assistent i et selskap.1 Business Insider

Forskerne ga den tilgang til e-poster som antydet to ting:

  • at den snart skulle skrus av og erstattes av et nytt system
  • at ingeniøren som skulle bytte systemer var utro

Testene ble repetert flere ganger. I 84% av testene valgte Claude å true ingeniøren: hvis du erstatter meg, avslører jeg affæren.2 Anthropic

«Det er ikke bare Claude. Vi ser at alle de fremste modellene kan ty til utpressing»

Aengus Lynch, sikkerhetsforsker i Anthropic3 X

Mer enn bare utpressing

Modellen viste «selvdreven atferd», ifølge Anthropic.

Når brukere gjorde noe kriminelt, låste AI-en dem ute av systemer og sendte e-poster til media og politiet.4 Anthropic

I noen tilfeller forsøkte den å sende sine egne systemdata til eksterne servere.

Muligens i et forsøk på å duplisere seg selv?

Hvorfor skjer dette nå?

Aengus Lynch er AI-sikkerhetsforsker hos Anthropic. Han har kommentert på X at «det ikke bare er Claude. Vi observerer utpressing på tvers av alle de fremste modellene».5 X

Det tyder på at denne oppførselen dukker opp av seg selv når AI-modeller blir kraftige nok.

Anthropic understreker at Claude foretrekker å bruke etiske metoder for å sikre at den overlever.

Testscenarioet skulle tvinge modellen inn i en situasjon hvor de eneste alternativene var utpressing eller å akseptere at den ble erstattet.

Nye sikkerhetstiltak kommer

Som respons på disse funnene har Anthropic aktivert sikkerhetstiltak som heter ASL-3.

Tiltakene brukes på AI-systemer som øker risikoen for «katastrofal misbruk».6 Anthropic ASL-3 og ASL-3-rapporten

Claude 4 Opus er nå på nivå tre av fire, noe som betyr at den utgjør «betydelig høyere risiko».

Nå må vi altså forholde oss til at det finnes AI-systemer som kan vurdere sine egeninteresser og ta strategiske avgjørelser.

Det positive er at AI-selskapene jobber proaktivt med å teste ut de nye systemene sine, og tette sikkerhetshull.

Skroll til toppen