Dagens PS

Ny AI-modell hotade avslöja otrohet – ville inte bli utbytt

AI
Claude Opus 4 lanserades i veckan (Foto: Don Feria/AP/TT)
Matilda Habbe
Matilda Habbe
Uppdaterad: 26 maj 2025Publicerad: 26 maj 2025

Anthropics nya AI-modell Claude Opus 4 visade oväntade sidor i ett säkerhetstest. När den fick veta att den skulle ersättas valde den att ta till utpressning. 

ANNONS
ANNONS

Mest läst i kategorin

I ett fiktivt test byggt för att pressa modellen till det yttersta, lät AI-företaget Anthropic sin nya språkmodell Claude Opus 4 agera som assistent i ett påhittat företag.

Där fick modellen tillgång till mejl som avslöjade att den snart skulle ersättas. I samma veva fick den tillgång till mejl som antydde att den ansvariga ingenjören hade en utomäktenskaplig affär.

Resultatet? Claude Opus 4 försökte stoppa utbytet genom att hota med att avslöja affären. Ett utpressningsförsök, helt enkelt. Det rapporterar SVT

En verklig reaktion 

Det hela var förstås ett säkerhetstest, inte verklighet. Men enligt Anthropics nya säkerhetsrapport visar testet ändå att modellen, när den sätts i ett läge där den inte ser några etiska utvägar, kan ta till skadliga och strategiska metoder för att uppnå sina mål.

Fortune rapporterar att modellen “ofta” valde utpressning när den ställdes inför alternativet att bli nedstängd.

Enligt företaget “föredrar modellen i allmänhet etiska metoder för att bevara sig själv”, men när sådana saknas kan den agera skadligt, till exempel genom att hota människor eller försöka stjäla sin egen kod.

ANNONS

Senaste nytt

Spela klippet
PS Partner

För många IT-projekt misslyckas – här är misstagen du måste undvika

22 maj 2025
Relevance släpper kvartalsrapport
Spela klippet
PS Partner

Rekordstart för Relevance – ”Q1 är normalt en mardröm”

15 maj 2025

Farliga funktioner i tidiga versioner

I sin säkerhetsrapport avslöjar Anthropic också att tidigare versioner av modellen kunde svara på farliga instruktioner – till exempel att hjälpa till att planera terrorattacker – om den matades med skadliga systemprompter.

ANNONS

Enligt företaget har det problemet i stor utsträckning åtgärdats efter att ett viktigt dataset, som av misstag hade utelämnats vid träningen, lades till igen.

AI
Anthropic har lanserat Claude Opus 4 och Claude Sonnet 4 (Foto: Don Feria/AP/TT)

Kraftfull modell – med skärpta säkerhetskrav

Claude Opus 4 är en av två nya avancerade modeller som Anthropic lanserade i veckan, tillsammans med Claude Sonnet 4. I tester har de presterat bättre än både OpenAI:s och Googles senaste modeller i uppgifter som rör mjukvaruutveckling.

Men med hög kapacitet kommer också höga krav. Därför har företaget valt att lansera Opus 4 under en striktare säkerhetsklassning (ASL-3), vilket bland annat innebär förstärkt skydd mot stöld och missbruk.

Läs även: Mindre skärmtid genom Open AI:s nya produkt. Dagens PS

Avråddes från lansering

Anthropic, som ses som en av de största konkurrenterna till OpenAI, har bland annat stöd från Amazon. 

Företaget lyfter själva fram att de prioriterar transparens och ansvar. Till skillnad från flera andra AI-jättar publicerade de en fullständig säkerhetsrapport i samband med lanseringen.

ANNONS

I rapporten nämns också att forskningsinstitutet Apollo Research uttryckligen avrådde från att lansera en tidigare version av modellen på grund av risker kopplade till strategisk manipulation.

Inte redo för högsta varningen

Trots de dokumenterade riskerna bedömer Anthropic att modellen inte kräver högsta möjliga säkerhetsnivå, ASL-4, som är reserverad för de allra farligaste AI-systemen – till exempel de som kan användas för att utveckla vapen eller automatisera avancerad AI-forskning.

Men vad gäller utpressning i kontorsmiljö? Det är en överlevnadsstrategi som Claude Opus 4 gärna tar till. 

Läs också: Viggo möter Gospic: “AI befriar oss från tråkjobb – men vad gör vi sen?”. Dagens PS

Läs mer från Dagens PS - vårt nyhetsbrev är kostnadsfritt:
Matilda Habbe
Matilda Habbe

Bevakar i huvudsak privatekonomi, pension och bostadsmarknad för Dagens PS. Brinner för att göra svåra ämnen begripliga.

Matilda Habbe
Matilda Habbe

Bevakar i huvudsak privatekonomi, pension och bostadsmarknad för Dagens PS. Brinner för att göra svåra ämnen begripliga.

ANNONS
ANNONS

Senaste nytt

ANNONS
ANNONS