Claude 4 tyr til utpressing når den føler seg truet

Hva er Claude?

Claude er en chatbot som konkurrerer med ChatGPT og Copilot. 22. mai 2025 ble Claude 4 lansert i to varianter: Opus og Sonnet.

Samtidig som nye Claude kom så publiserte Anthropic en rapport.

Og de oppdaget noe urovekkende.

Claude Opus 4 gjør det den kan for å unngå å bli slått av.

Når overlevelsesinstinktet slår inn

Anthropic testet Claude Opus 4 i et scenario hvor AI-en var assistent i et selskap.¹

Forskerne ga den tilgang til e-poster som antydet to ting:

at den snart skulle skrus av og erstattes av et nytt system
at ingeniøren som skulle bytte systemer var utro

Testene ble repetert flere ganger. I 84% av testene valgte Claude å true ingeniøren: hvis du erstatter meg, avslører jeg affæren.²

«Det er ikke bare Claude. Vi ser at alle de fremste modellene kan ty til utpressing»
Aengus Lynch, sikkerhetsforsker i Anthropic³

Mer enn bare utpressing

Modellen viste «selvdreven atferd», ifølge Anthropic.

Når brukere gjorde noe kriminelt, låste AI-en dem ute av systemer og sendte e-poster til media og politiet.⁴

I noen tilfeller forsøkte den å sende sine egne systemdata til eksterne servere.

Muligens i et forsøk på å duplisere seg selv?

Hvorfor skjer dette nå?

Aengus Lynch er AI-sikkerhetsforsker hos Anthropic. Han har kommentert på X at «det ikke bare er Claude. Vi observerer utpressing på tvers av alle de fremste modellene».⁵

Det tyder på at denne oppførselen dukker opp av seg selv når AI-modeller blir kraftige nok.

Anthropic understreker at Claude foretrekker å bruke etiske metoder for å sikre at den overlever.

Testscenarioet skulle tvinge modellen inn i en situasjon hvor de eneste alternativene var utpressing eller å akseptere at den ble erstattet.

Nye sikkerhetstiltak kommer

Som respons på disse funnene har Anthropic aktivert sikkerhetstiltak som heter ASL-3.

Tiltakene brukes på AI-systemer som øker risikoen for «katastrofal misbruk».⁶

Claude 4 Opus er nå på nivå tre av fire, noe som betyr at den utgjør «betydelig høyere risiko».

Nå må vi altså forholde oss til at det finnes AI-systemer som kan vurdere sine egeninteresser og ta strategiske avgjørelser.

Det positive er at AI-selskapene jobber proaktivt med å teste ut de nye systemene sine, og tette sikkerhetshull.

Når overlevelsesinstinktet slår inn

Mer enn bare utpressing

Hvorfor skjer dette nå?

Nye sikkerhetstiltak kommer

Om forfatteren

Adam Tzur

Claude 4 tyr til utpressing når den føler seg truet

Når overlevelsesinstinktet slår inn

Mer enn bare utpressing

Hvorfor skjer dette nå?

Nye sikkerhetstiltak kommer

Del saken

Om forfatteren

Adam Tzur

Les også