Hva er Claude?
Claude er en chatbot som konkurrerer med ChatGPT og Copilot. 22. mai 2025 ble Claude 4 lansert i to varianter: Opus og Sonnet.
Samtidig som nye Claude kom så publiserte Anthropic en rapport.
Og de oppdaget noe urovekkende.
Claude Opus 4 gjør det den kan for å unngå å bli slått av.
Når overlevelsesinstinktet slår inn
Anthropic testet Claude Opus 4 i et scenario hvor AI-en var assistent i et selskap.1 Business Insider
Forskerne ga den tilgang til e-poster som antydet to ting:
- at den snart skulle skrus av og erstattes av et nytt system
- at ingeniøren som skulle bytte systemer var utro
Testene ble repetert flere ganger. I 84% av testene valgte Claude å true ingeniøren: hvis du erstatter meg, avslører jeg affæren.2 Anthropic
«Det er ikke bare Claude. Vi ser at alle de fremste modellene kan ty til utpressing»
Aengus Lynch, sikkerhetsforsker i Anthropic3 X
Mer enn bare utpressing
Modellen viste «selvdreven atferd», ifølge Anthropic.
Når brukere gjorde noe kriminelt, låste AI-en dem ute av systemer og sendte e-poster til media og politiet.4 Anthropic
I noen tilfeller forsøkte den å sende sine egne systemdata til eksterne servere.
Muligens i et forsøk på å duplisere seg selv?
Hvorfor skjer dette nå?
Aengus Lynch er AI-sikkerhetsforsker hos Anthropic. Han har kommentert på X at «det ikke bare er Claude. Vi observerer utpressing på tvers av alle de fremste modellene».5 X
Det tyder på at denne oppførselen dukker opp av seg selv når AI-modeller blir kraftige nok.
Anthropic understreker at Claude foretrekker å bruke etiske metoder for å sikre at den overlever.
Testscenarioet skulle tvinge modellen inn i en situasjon hvor de eneste alternativene var utpressing eller å akseptere at den ble erstattet.
Nye sikkerhetstiltak kommer
Som respons på disse funnene har Anthropic aktivert sikkerhetstiltak som heter ASL-3.
Tiltakene brukes på AI-systemer som øker risikoen for «katastrofal misbruk».6 Anthropic ASL-3 og ASL-3-rapporten
Claude 4 Opus er nå på nivå tre av fire, noe som betyr at den utgjør «betydelig høyere risiko».
Nå må vi altså forholde oss til at det finnes AI-systemer som kan vurdere sine egeninteresser og ta strategiske avgjørelser.
Det positive er at AI-selskapene jobber proaktivt med å teste ut de nye systemene sine, og tette sikkerhetshull.