
AI Avvelenata! Bastano 250 documenti dannosi per compromettere un LLM
I ricercatori di Anthropic, in collaborazione con l’AI Safety Institute del governo britannico, l’Alan Turing Institute e altri istituti accademici, hanno riferito che sono bastati appena 250 documenti dannosi appositamente creati per costringere un modello di intelligenza artificiale a generare testo incoerente quando rilevava una frase di attivazione specifica. Gli attacchi di avvelenamento dell’IA si basano sull’introduzione di informazioni dannose nei set di dati di addestramento dell’IA, che alla fine fanno sì che il modello restituisca, ad esempio, frammenti di codice errati o dannosi. In precedenza si riteneva che un aggressore dovesse controllare una certa percentuale dei dati di addestramento di un

