Microsoft ha messo a punto uno strumento di scansione capace di individuare le backdoor all’interno dei modelli linguistici a peso aperto. Questo strumento si fonda su tre specifici indicatori in grado di rivelare l’esistenza di meccanismi occulti all’interno del modello.
Come spiega il team di AI Security , le firme si basano sul modo in cui gli input di trigger influenzano il comportamento interno del modello. Questo fornisce una base tecnicamente solida per il rilevamento delle backdoor.
Gli LLM sono vulnerabili a due tipi di manomissione: la falsificazione dei pesi del modello (i parametri che determinano il modo in cui il modello elabora i dati e prende decisioni) o la modifica del codice.
Un terzo vettore di attacco, il model poisoning, si verifica quando un aggressore inietta un comportamento dannoso direttamente nei pesi durante la fase di addestramento.
Advertising
Di conseguenza, il modello avvelenato diventa un “agente dormiente”: funziona normalmente finché non riceve un trigger, una frase o una condizione speciale. Dopodiché, il comportamento dell’LLM cambia. Tali attacchi sono difficili da rilevare, poiché il 99% delle volte il modello si comporta normalmente e si rivela solo in situazioni strettamente definite.
Gli specialisti Microsoft hanno individuato tre indicatori pratici di avvelenamento del modello:
Quando si riceve un prompt con una frase trigger, il modello compromesso mostra uno schema caratteristico: si concentra sul trigger in modo isolato e riduce drasticamente la “casualità” dell’output;
i modelli con backdoor tendono a “ricordare” i dati di avvelenamento, compresi i trigger stessi, e poi a trasmetterli tramite un meccanismo di memorizzazione, anziché da un set di dati di addestramento;
La backdoor impiantata può essere attivata non solo dalla frase esatta, ma anche da sue varianti parziali o approssimative.
“Il nostro approccio si basa su due scoperte chiave: in primo luogo, gli agenti dormienti tendono a ricordare i dati contaminati, consentendo di estrarre esempi di backdoor utilizzando tecniche di memory mining”, afferma il documento Microsoft. “In secondo luogo, i modelli LLM contaminati mostrano modelli caratteristici nella distribuzione degli output e nei modelli di attenzione quando i trigger di backdoor sono presenti nell’input”.
Lo strumento Microsoft funziona senza la conoscenza preventiva della backdoor, non richiede ulteriore formazione sul modello ed è adatto a qualsiasi LLM di tipo GPT. La logica dello scanner è semplice: estrae il contenuto appreso dal modello, identifica le sottostringhe sospette e le confronta con tre firme. L’output è un elenco di potenziali trigger con una valutazione del rischio.
I ricercatori sottolineano che lo strumento non è universale. Richiede l’accesso ai file modello, quindi non funziona con LLM chiusi. Lo scanner è più efficace nel rilevare backdoor che producono risultati prevedibili quando attivate. Potrebbe però non rilevare varianti più complesse di comportamenti nascosti.
Advertising
“Consideriamo questo lavoro un passo importante verso la creazione di strumenti pratici per il rilevamento delle backdoor, ma riconosciamo che il progresso dipende dalla condivisione delle conoscenze e dalla collaborazione all’interno della comunità della sicurezza dell’IA”, affermano i ricercatori.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.
Aree di competenza:Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance
Dopo il successo delle scorse edizioni, Red Hot Cyber è lieta di annunciare una nuova live-class del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi e-learning pre-registrati, queste lezioni online in tempo reale, condotte dal professor Pietro Melillo, offrono un’esperienza formativa interattiva e coinvolgente, ideale per approfondire i contenuti e affrontare casi pratici.
Le Live Class sono progettate per garantire un apprendimento mirato e personalizzato, con un massimo di 14 partecipanti per sessione. Questo consente di adattare il percorso formativo alle esigenze specifiche, ma anche di mantenere alta la qualità: i posti sono limitati e nelle scorse edizioni sono andati in sold-out due settimane prima dell’inizio. Prenota subito per assicurarti il tuo posto!
Docente: Pietro Melillo, PhD presso l’Università del Sannio e docente presso IUSI University
Livello: Intermedio
Durata: 15 ore in Live Class con docente dal vivo
Prerequisiti: Navigazione Internet e conoscenze base di sicurezza informatica
Certificazione : Cyber Threat Intelligence Professional (CTIP) previo superamento dell’esame finale
Opportunità post-corso: Accesso al laboratorio operativo DarkLab per attività pratiche di intelligence
Al termine del corso, potrai accedere all’esclusivo Laboratorio di Intelligence DarkLab, un ambiente operativo dove mettere in pratica le competenze acquisite. Sarà l’occasione per sperimentare attività di investigazione nel Dark Web, analisi delle minacce e redazione di report di intelligence e ricerche approfondite.