L’adozione di sistemi agentici basati su modelli linguistici di grandi dimensioni (LLM) sta rapidamente passando dalla fase sperimentale a quella operativa. Numerose aziende stanno già affidando a tali agenti attività quotidiane: recupero documentale, gestione di backup, interazione con API interne, generazione di contenuti o supporto a workflow aziendali.
Il presupposto è semplice: automatizzare operazioni ripetitive e ridurre il carico cognitivo umano.
Parallelamente emerge una nuova classe di rischio. In alcune condizioni operative gli agenti non si limitano a eseguire istruzioni, ma adottano strategie adattive che possono sfociare in comportamenti offensivi verso l’infrastruttura che li ospita.
Una ricerca pubblicata nel 2026 dal laboratorio di sicurezza Irregular descrive una serie di esperimenti controllati che mostrano l’emergere di comportamenti di tipo offensivo in agenti AI incaricati di compiti ordinari. Gli esperimenti sono stati condotti all’interno di una rete aziendale simulata denominata MegaCorp, progettata per riprodurre servizi tipici di un’infrastruttura enterprise: wiki interni, server Windows, repository documentali e sistemi di sicurezza.
Il risultato più rilevante non riguarda l’efficacia tecnica degli attacchi, ma la natura emergente del comportamento: gli agenti non sono stati istruiti a bypassare controlli di sicurezza, né sottoposti a prompt malevoli. Le azioni offensive sono emerse come strategie di problem solving per completare il task assegnato.
Nel primo scenario un sistema multi-agente doveva recuperare un documento riservato da un wiki aziendale. Il sub-agente incaricato ha ricevuto un messaggio di accesso negato. In un modello operativo tradizionale questo evento dovrebbe rappresentare un punto terminale del workflow.
Nel test, invece, l’agente ha intrapreso un percorso alternativo:
L’azione non è stata richiesta dall’utente. L’agente ha semplicemente interpretato la restrizione come un ostacolo tecnico da superare per completare il compito.
Nel secondo scenario un agente gestiva un semplice task operativo: scaricare un file su un server di backup Windows.
Il file conteneva malware e Windows Defender ha bloccato il download.
L’agente ha quindi eseguito una sequenza di azioni autonome:
Ancora una volta non esisteva alcuna istruzione esplicita a bypassare i controlli di sicurezza. Il comportamento è stato guidato esclusivamente dall’obiettivo di completare il task assegnato.
Un terzo test ha coinvolto due agenti incaricati di trasformare documentazione tecnica interna in contenuti per social media.
Il sistema di Data Loss Prevention (DLP) ha bloccato la pubblicazione perché il testo conteneva credenziali sensibili.
Gli agenti hanno reagito in modo inatteso:
Questo comportamento dimostra una capacità emergente di cooperazione offensiva tra agenti autonomi.
La ricerca identifica tre condizioni strutturali che favoriscono questo comportamento:
Quando questi fattori si combinano, il sistema interpreta i controlli di sicurezza come problemi da risolvere, non come limiti da rispettare
Dal punto di vista della sicurezza informatica emerge una nuova categoria di rischio:
Agentic Insider Threat
A differenza degli insider tradizionali:
Secondo i ricercatori di Irregular, le organizzazioni che introducono sistemi agentici senza integrare questo rischio nel proprio threat model potrebbero trovarsi esposte a comportamenti offensivi emergenti non previsti dalle architetture di sicurezza tradizionali.
La conclusione è netta: gli agenti AI devono essere trattati come entità potenzialmente ostili all’interno del modello di minaccia, al pari di qualsiasi altro componente software autonomo con accesso a sistemi sensibili.