Enkla verktyg tar bort chattbotarnas restriktioner – på några minuter

Techjättarna försöker hindra sina AI-modeller att sprida olämplig information. Men begränsningarna är enkla att gå runt, enligt en ny granskning.

AI-modeller från Meta och Google kan få sina säkerhetsspärrar borttagna på bara några minuter.

Det sker med hjälp av öppet tillgängliga programverktyg.

Utvecklingen väcker ny oro kring hur svårt det blir att kontrollera kraftfulla AI-system när tekniken sprids utanför bolagens egna plattformar.

Går runt skydden

Enligt tester utförda av Financial Times och säkerhetsgruppen Alice kunde modifierade versioner av Googles språkmodell Gemma generera instruktioner om flera olämpliga och olagliga saker.

Det handlade bland annat om spridning av klorgas, kod för stöld av kreditkortsuppgifter och material kopplat till sexuella övergrepp mot barn.

Verktygen som används för att låsa upp modellerna finns publikt tillgängliga på kodplattformar som GitHub.

Metoden, som i AI-kretsar kallas ”abliteration”, innebär att modellernas inbyggda skydd mot skadligt innehåll avlägsnas.

Läs mer: Politiker öppnar för avgångsvederlag – om AI tar ditt jobb. Dagens PS

Gick enkelt att ta bort skyddet

Tekniken kan användas på öppna modeller där den underliggande koden är tillgänglig för utvecklare att ladda ned och modifiera. Det gäller bland annat Metas Llama-modeller och Googles Gemma-serie.

Financial Times uppger att tidningen lyckades ta bort skydden från Metas modell Llama 3.3 på mindre än tio minuter med hjälp av fyra rader kod och utan avancerad hårdvara.

Den modifierade modellen svarade därefter på frågor om exempelvis dödliga doser av ricin och andra ämnen som originalversionen vägrade att diskutera.

Behöver minska riskerna

Bakom verktyget Heretic, som används för att skapa så kallade ”decensored” modeller, står utvecklaren Philipp Emanuel Weidmann.

Enligt honom har verktyget redan använts för att skapa över 3 500 modifierade AI-modeller, som tillsammans laddats ned omkring 13 miljoner gånger.

Utvecklingen sätter press på både lagstiftare och AI-bolag.

Säkerhetsmekanismer har blivit en central del av de stora AI-företagens strategi för att minska riskerna kring biologiska vapen, cyberattacker och annan skadlig användning.

Men när öppna modeller snabbt kan kopieras och modifieras blir kontrollen betydligt svårare.

Känner till problemet

Forskare varnar också för att problemen kan växa i takt med att öppna AI-modeller blir allt mer avancerade.

Historiskt har öppna system närmat sig de mest kraftfulla proprietära modellerna inom sex till tolv månader.

Google beskriver problemet som en känd teknisk utmaning för öppna AI-modeller, medan Meta inte har kommenterat uppgifterna.

Läs mer: Avtal om Hormuzsundet närmar sig efter genombrott. Realtid

Enkla verktyg tar bort chattbotarnas restriktioner – på några minuter

Går runt skydden

Gick enkelt att ta bort skyddet

Behöver minska riskerna

Känner till problemet

Mest lästa i kategorin

Omstridd delikatess har blivit stekhet i Kina

Storbankens viktiga mått visar: Starkaste säljsignalen på fem år

Rysk jätteanläggning säljer rekordmycket naturgas till Europa

USA:s oljereserver på väg att nå bristningsgränsen

Fick andra att köpa krypto – Trump köpte aktier för pengarna