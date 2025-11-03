Google DeepMind, Anthropic, OpenAI och Microsoft försöker täppa till ett växande säkerhetshål i sina språkmodeller.

Den nya attackformen kallas indirect prompt injection, en indirekt promptinjektion.

Enkelt förklarat handlar det om att gömma skadliga instruktioner i till exempel webbsidor eller mejl vilket i slutändan leder till att AI-modeller avslöjar information de inte borde.

”AI används just nu av cyberaktörer i varje led av en attack”, säger Jacob Klein, som leder hotanalysteamet på Anthropic, till Financial Times.

Problemet är att stora språkmodeller, så kallade LLM:er, är byggda för att lyda instruktioner. De har svårt att skilja mellan legitim input och skadlig kod. Det är också orsaken till varför vissa användare lyckas kringgå skydden i modellerna genom så kallad jailbreaking.

AI mot AI

För att skydda sig använder techjättarna en rad olika metoder. Anthropic samarbetar med externa testare och låter sina egna AI-system identifiera misstänkta attacker.

“När vi hittar ett skadligt användningsområde kan vi, beroende på hur säkra vi är, automatiskt sätta in en åtgärd – eller skicka det vidare för manuell granskning”, säger Klein.

Google DeepMind har valt en annan strategi. Deras forskare utsätter ständigt den egna modellen Gemini för realistiska attacker, detta för att upptäcka svagheter innan hackarna gör det.