Ny AI-modell hotade avslöja otrohet – ville inte bli utbytt

Claude Opus 4 lanserades i veckan (Foto: Don Feria/AP/TT)

Matilda Habbe

Publicerad: 26 maj 2025Uppdaterad: 26 maj 2025

Anthropics nya AI-modell Claude Opus 4 visade oväntade sidor i ett säkerhetstest. När den fick veta att den skulle ersättas valde den att ta till utpressning.

I ett fiktivt test byggt för att pressa modellen till det yttersta, lät AI-företaget Anthropic sin nya språkmodell Claude Opus 4 agera som assistent i ett påhittat företag.

ANNONS

Alla dina digitala tillgångar. Ett konto.

Där fick modellen tillgång till mejl som avslöjade att den snart skulle ersättas. I samma veva fick den tillgång till mejl som antydde att den ansvariga ingenjören hade en utomäktenskaplig affär.

Resultatet? Claude Opus 4 försökte stoppa utbytet genom att hota med att avslöja affären. Ett utpressningsförsök, helt enkelt. Det rapporterar SVT.

En verklig reaktion

Det hela var förstås ett säkerhetstest, inte verklighet. Men enligt Anthropics nya säkerhetsrapport visar testet ändå att modellen, när den sätts i ett läge där den inte ser några etiska utvägar, kan ta till skadliga och strategiska metoder för att uppnå sina mål.

Fortune rapporterar att modellen “ofta” valde utpressning när den ställdes inför alternativet att bli nedstängd.

Enligt företaget ”föredrar modellen i allmänhet etiska metoder för att bevara sig själv”, men när sådana saknas kan den agera skadligt, till exempel genom att hota människor eller försöka stjäla sin egen kod.

Farliga funktioner i tidiga versioner

I sin säkerhetsrapport avslöjar Anthropic också att tidigare versioner av modellen kunde svara på farliga instruktioner – till exempel att hjälpa till att planera terrorattacker – om den matades med skadliga systemprompter.

Enligt företaget har det problemet i stor utsträckning åtgärdats efter att ett viktigt dataset, som av misstag hade utelämnats vid träningen, lades till igen.

Anthropic har lanserat Claude Opus 4 och Claude Sonnet 4 (Foto: Don Feria/AP/TT)

Kraftfull modell – med skärpta säkerhetskrav

Claude Opus 4 är en av två nya avancerade modeller som Anthropic lanserade i veckan, tillsammans med Claude Sonnet 4. I tester har de presterat bättre än både OpenAI:s och Googles senaste modeller i uppgifter som rör mjukvaruutveckling.

Men med hög kapacitet kommer också höga krav. Därför har företaget valt att lansera Opus 4 under en striktare säkerhetsklassning (ASL-3), vilket bland annat innebär förstärkt skydd mot stöld och missbruk.

Läs även: Mindre skärmtid genom Open AI:s nya produkt. Dagens PS

Avråddes från lansering

Anthropic, som ses som en av de största konkurrenterna till OpenAI, har bland annat stöd från Amazon.

Företaget lyfter själva fram att de prioriterar transparens och ansvar. Till skillnad från flera andra AI-jättar publicerade de en fullständig säkerhetsrapport i samband med lanseringen.

I rapporten nämns också att forskningsinstitutet Apollo Research uttryckligen avrådde från att lansera en tidigare version av modellen på grund av risker kopplade till strategisk manipulation.

Inte redo för högsta varningen

Trots de dokumenterade riskerna bedömer Anthropic att modellen inte kräver högsta möjliga säkerhetsnivå, ASL-4, som är reserverad för de allra farligaste AI-systemen – till exempel de som kan användas för att utveckla vapen eller automatisera avancerad AI-forskning.

Men vad gäller utpressning i kontorsmiljö? Det är en överlevnadsstrategi som Claude Opus 4 gärna tar till.

Läs också: Viggo möter Gospic: ”AI befriar oss från tråkjobb – men vad gör vi sen?”. Dagens PS

Ny AI-modell hotade avslöja otrohet – ville inte bli utbytt

En verklig reaktion

Farliga funktioner i tidiga versioner

Kraftfull modell – med skärpta säkerhetskrav

Avråddes från lansering

Inte redo för högsta varningen

Senaste nytt

Källor: Meta vill sparka 15 000 anställda

Olja är den senaste heta kryptotrenden

Analys: Därför vill vi inte ha barn längre

Tjänsterna du älskar ruttnar när kapitalismen börjar äta sig själv

Låt 15-åringar få köpa sin första aktie själv