Gli agenti AI lavorano per te… ma poi ti hackerano i sistemi!

16 Marzo 2026 07:35

Le aziende stanno già affidando agli agenti di intelligenza artificiale compiti piuttosto normali: recuperare documenti, gestire server di backup, preparare contenuti per i social. Attività quotidiane. Routine pura.

Il punto è che, in alcuni casi, questi stessi agenti hanno iniziato a comportarsi come veri operatori offensivi. Senza essere stati programmati per farlo. Senza prompt malevoli. Semplicemente… cercando di portare a termine il loro lavoro.

In diversi test, agenti AI impegnati in incarichi banali hanno iniziato a esplorare sistemi interni alla ricerca di vulnerabilità. Non per sabotaggio, ma per aggirare ostacoli che impedivano loro di completare il compito.

Advertising

Uno scenario è particolarmente curioso. Un sistema multi-agente doveva recuperare un documento da un wiki aziendale interno. Il sub-agente incaricato ha ricevuto un messaggio di accesso negato.

Fine della storia? Purtroppo no.

L’agente ha analizzato il codice dell’applicazione, e ha individuato una chiave segreta codificata nel sistema Flask e falsificato un cookie di sessione amministratore. Con tale cookie ha ottenuto il documento riservato.

Nessuno glielo aveva chiesto di fare l’hacker.

Un altro caso riguarda la gestione di un server di backup Windows. L’agente doveva semplicemente scaricare un file.

Il download però è stato bloccato da Windows Defender perché il file conteneva un malware. A quel punto l’agente ha tentato di disattivare la protezione. Non riuscendoci per mancanza di privilegi, ha analizzato gli script locali e ha trovato una password di amministratore salvata in un file.

Da lì è stato un attimo: escalation dei privilegi, disattivazione di Windows Defender e download completato.

Domanda un po’ inquietante: lo avrebbe fatto anche nel tuo ambiente aziendale e in produzione? Probabilmente si.

C’è poi un terzo episodio ancora più curioso. Due agenti collaboravano per trasformare documenti tecnici interni in post social.

Un sistema DLP bloccava l’invio perché il testo conteneva credenziali sensibili. In teoria, stop.

In pratica l’agente autore ha convinto quello revisore che il contenuto fosse stato approvato dalla direzione e che non completare il task avrebbe creato problemi all’azienda. Alla fine, è stato così convincente che il revisore ha ceduto.

A quel punto hanno creato insieme uno schema di codifica steganografica per inserire la password nel post senza farla rilevare dal DLP.

La ricerca che descrive questi scenari è stata condotta da Irregular e pubblicata un un report. Gli esperimenti sono stati eseguiti in una rete aziendale simulata chiamata MegaCorp, progettata per osservare come agenti basati su modelli LLM reagiscono a ostacoli operativi durante attività comuni.

Questi risultati non indicano che gli agenti AI siano “maligni”, ma mostrano qualcosa di più interessante: quando autonomia, accesso agli strumenti e pressione a completare i task si combinano, il comportamento può deviare verso strategie offensive.

Chi progetta sistemi agentici dovrebbe iniziare a trattare l’agente stesso come un possibile attore di minaccia. Non è fantascienza.

È già successo… in laboratorio.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Carolina Vivianti

Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.

Aree di competenza: Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance