Öppen biologisk data kan hjälpa AI skapa smittsamma virus

Forskare varnar för att öppen åtkomst till biologisk data kan hjälpa artificiell intelligens att skapa farliga patogener.

Inom biologi förlitar sig modeller för artificiell intelligens, AI, på stora mängder biologisk data, som genetiska sekvenser och patogeners egenskaper, det skriver Euro News.

Nu ifrågasätter forskare om den här informationen bör vara universellt tillgänglig, och hur legitim användning av den här datan kan säkerställas.

I ett öppet brev varnar 100 forskare från ledande institutioner för att obegränsad tillgång till vissa biologiska datamängder kan göra att AI-system kan hjälpa till att designa eller förbättra farliga virus, och de efterlyser starkare skyddsåtgärder för att förhindra missbruk

I brevet hävdar forskarna att även om öppen tillgång till vetenskapliga data har påskyndat forskning, kan en liten del av alla nya biologiska data utgöra biosäkerhetsrisker om de missbrukas.

”Riskerna med biologisk datastyrning är höga, eftersom AI-modeller kan bidra till att skapa allvarliga biologiska hot”, skriver forskarna i brevet.

I takt med att AI-system blir kraftfullare och mer allmänt tillgängliga menar forskarna att det kommer vara avgörande att hitta rätt balans mellan öppenhet och nödvändiga säkerhetsrestriktioner för högriskdata.

Kan skapa smittsamma patogener

AI-modeller som används inom biologi kan identifiera mönster, förutsäga mutationer och generera mer smittsamma varianter av pandemiska patogener, vilket forskarna i sitt brev beskriver som en oroande förmåga.

De menar att det här skulle kunna påskynda och förenkla skapande av smittsamma biologiska patogener som kan orsaka pandemier som drabbar människor och djur, eller liknande händelser för växter eller miljön.

Forskarna skriver att biologiska data generellt sett bör vara öppet tillgänglig, men de menar att det krävs starkare säkerhetskontroller när det handlar om data om patogener.

”Vårt fokus ligger på att definiera och styra de mest oroande datamängderna innan de blir allmänt tillgängliga för AI-utvecklare”, skriver forskrna i brevet.

Tydliga regler behövs

Det finns för närvarande inget universellt ramverk som reglerar de här datamängderna, men vissa utvecklare exkluderar högriskdata frivilligt. Forskare menar dock att tydliga och konsekventa regler bör gälla för alla.

”Just nu finns det ingen expertbaserad vägledning om vilken data som utgör betydande risker, vilket gör att vissa frontlinjeutvecklare får göra sina bästa gissningar och frivilligt utesluta virusdata från utbildning”, skriver Jassi Panu, medförfattare till brevet, på LinkedIn.

Forskarna som skrivit brevet föreslår ett nytt ramverk för att reglera åtkomst till data om patogener men det föreslagna ramverket gäller bara en liten del av biologiska datamängder.

Forskarna introducerar fem säkerhetsnivåer för biologisk data som ska kategorisera patogendata och klassificera den efter risknivån baserad på datans potential att göra möjliggöra för AI-system att lära sig allmänna virusmönster och biologiska hot mot människor och djur.

De kallar säkerhetsnivårerna för BDL-0 till och med BDL-5.

Tekniska verktyg

”I en tid som domineras av öppna biologiska AI-modeller som utvecklats över hela världen, kan begränsning av tillgången till känsliga patogendata till legitima forskare vara ett av de mest lovande sätten att minska riskerna”, säger Moritz Hanke till Euro News.

Han är från Johns Hopkins University i USA i en av forskarna som varit med och skrivit det öppna brevet.

För att garantera säker åtkomst till biologisk data efterlyser forskarna i sitt brev tekniska verktyg som gör att dataleverantörer kan verifiera legitima användare och spåra missbruk.

Verktyg som föreslås inkluderar inbäddning av dolda, unika identifierare i datamängder så att läckor enkelt kan spåras, dataproveniens och granskningsloggar som registrerar åtkomst och ändringar med manipuleringsskyddade signaturer, samt beteendebaserad biometri som kan spåra unika mönster i användares interaktioner.

Presterar sämre

Vissa motståndare till reglering av data hävdar att det är meningslöst att begränsa åtkomsten till data eftersom det inte försämrar AI:s kapacitet, det skriver Gigazine.

Forskarna som som skrivit brevet påpekar dock att experimentella resultat har visat att AI-modeller som exkluderar data som virusspecifika proteiner och de genetiska sekvenser av virus som infekterar eukaryoter, presterar sämre på uppgifter relaterade till virus.

”Eukaryoter är organismer som har en eller flera komplexa celler, i vilka arvsmassan återfinns i en cellkärna som avgränsas av ett cellmembran. Dessa celler är också relativt stora. Djur, växter och svampar är eukaryoter”, skriver Forskning.se. Det innebär att även vi människor är eukaryoter.

Läs mer på Dagens PS: Nytt förödande hot från AI: Biologiska vapen

Läs mer på E55: Hur kan vi må och leva bättre efter medelåldern?