Dagens PS

Enkla verktyg tar bort chattbotarnas restriktioner – på några minuter

meta
Chris Cox är en av de högt uppsatta cheferna på Meta som arbetar med AI. (Foto: Jeff Chiu/AP/TT).

Techjättarna försöker hindra sina AI-modeller att sprida olämplig information. Men begränsningarna är enkla att gå runt, enligt en ny granskning.

AI-modeller från Meta och Google kan få sina säkerhetsspärrar borttagna på bara några minuter.

Det sker med hjälp av öppet tillgängliga programverktyg.

Utvecklingen väcker ny oro kring hur svårt det blir att kontrollera kraftfulla AI-system när tekniken sprids utanför bolagens egna plattformar.

Går runt skydden

Enligt tester utförda av Financial Times och säkerhetsgruppen Alice kunde modifierade versioner av Googles språkmodell Gemma generera instruktioner om flera olämpliga och olagliga saker.

Det handlade bland annat om spridning av klorgas, kod för stöld av kreditkortsuppgifter och material kopplat till sexuella övergrepp mot barn.

Verktygen som används för att låsa upp modellerna finns publikt tillgängliga på kodplattformar som GitHub.

Metoden, som i AI-kretsar kallas ”abliteration”, innebär att modellernas inbyggda skydd mot skadligt innehåll avlägsnas.

Läs mer: Politiker öppnar för avgångsvederlag – om AI tar ditt jobb. Dagens PS

Gick enkelt att ta bort skyddet

Tekniken kan användas på öppna modeller där den underliggande koden är tillgänglig för utvecklare att ladda ned och modifiera. Det gäller bland annat Metas Llama-modeller och Googles Gemma-serie.

Financial Times uppger att tidningen lyckades ta bort skydden från Metas modell Llama 3.3 på mindre än tio minuter med hjälp av fyra rader kod och utan avancerad hårdvara.

Den modifierade modellen svarade därefter på frågor om exempelvis dödliga doser av ricin och andra ämnen som originalversionen vägrade att diskutera.

Behöver minska riskerna

Bakom verktyget Heretic, som används för att skapa så kallade ”decensored” modeller, står utvecklaren Philipp Emanuel Weidmann.

Enligt honom har verktyget redan använts för att skapa över 3 500 modifierade AI-modeller, som tillsammans laddats ned omkring 13 miljoner gånger.

Utvecklingen sätter press på både lagstiftare och AI-bolag.

Säkerhetsmekanismer har blivit en central del av de stora AI-företagens strategi för att minska riskerna kring biologiska vapen, cyberattacker och annan skadlig användning.

Men när öppna modeller snabbt kan kopieras och modifieras blir kontrollen betydligt svårare.

Känner till problemet

Forskare varnar också för att problemen kan växa i takt med att öppna AI-modeller blir allt mer avancerade.

Historiskt har öppna system närmat sig de mest kraftfulla proprietära modellerna inom sex till tolv månader.

Google beskriver problemet som en känd teknisk utmaning för öppna AI-modeller, medan Meta inte har kommenterat uppgifterna.

Läs mer: Avtal om Hormuzsundet närmar sig efter genombrott. Realtid

Johannes Stenlund

Johannes Stenlund är en journalist som bevakar ekonomi, näringsliv och politik för Dagens PS. Särskilt intresserad av internationell handel, råvaror, utvecklingsfrågor och politisk ekonomi. Har tidigare skrivit om utrikespolitik och ekonomi för flera svenska tidningar. Trivs både med att förklara det stora sammanhanget och att bevaka den lilla händelsen på plats. Kontakta Johannes Stenlund här.

Johannes Stenlund

Johannes Stenlund är en journalist som bevakar ekonomi, näringsliv och politik för Dagens PS. Särskilt intresserad av internationell handel, råvaror, utvecklingsfrågor och politisk ekonomi. Har tidigare skrivit om utrikespolitik och ekonomi för flera svenska tidningar. Trivs både med att förklara det stora sammanhanget och att bevaka den lilla händelsen på plats. Kontakta Johannes Stenlund här.

Mest lästa i kategorin