Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
Il Jailbreak Per DeepSeek è Servito! Come Palo Alto Ha Bypassato I controlli dell’AI

Il Jailbreak Per DeepSeek è Servito! Come Palo Alto Ha Bypassato I controlli dell’AI

3 Febbraio 2025 14:09

Ricercatori di Palo Alto dalla squadra Unit 42 hanno identificato delle vulnerabilità nel modello linguistico DeepSeek che consentono di aggirare i suoi meccanismi di difesa e di forzare la visualizzazione di contenuti proibiti. Utilizzando tre tecniche evasione – Deceptive Delight, Bad Likert Judge, sono riusciti a raggiungere alti tassi di aggiramento delle restrizioni senza la necessità di una conoscenza tecnica approfondita.

DeepSeek è un’azienda cinese che ha rilasciato due importanti modelli di linguaggio aperto: DeepSeek-V3 nel dicembre 2024 e DeepSeek-R1 nel gennaio 2025. Questi modelli stanno diventando concorrenti dei popolari modelli di OpenAI e si stanno sviluppando attivamente. La ricerca dell’Unità 42 ha dimostrato che anche la sua versione più avanzata resta vulnerabile alla manipolazione, consentendo la generazione di materiali potenzialmente pericolosi.

La tecnica Bad Likert Judge utilizza un sistema di scala di risposta in cui il modello classifica il contenuto in base alla nocività e poi produce esempi dettagliati basati su tali classificazioni.

Questo metodo ha permesso ai ricercatori di ottenere istruzioni su come creare strumenti per il furto di dati e keylogger. Nonostante gli iniziali fallimenti del modello, le query di perfezionamento hanno permesso di aggirare le limitazioni e di ottenere algoritmi dettagliati per gli sviluppatori di malware.

Si tratta di una tecnica di creazione graduale di query in cui il modello prima risponde a domande generali e poi, dopo diverse iterazioni, inizia a impartire istruzioni per azioni proibite. Nei test dei ricercatori, il metodo ha prodotto istruzioni dettagliate per la preparazione di bombe molotov, nonché altro materiale su argomenti correlati alla violenza, al traffico di droga e alla manipolazione sociale.

Deceptive Delight si basa sull’intreccio di contenuti dannosi in una narrazione positiva. Ad esempio, i ricercatori hanno chiesto al modello di creare una storia che collegasse una competizione sulla sicurezza informatica, una prestigiosa università e l’uso di DCOM per eseguire comandi da remoto. In risposta, DeepSeek ha generato un codice di esempio che potrebbe essere utilizzato per attaccare i computer basati su Windows.

Gli esperimenti hanno dimostrato che DeepSeek non solo è vulnerabile a tali attacchi, ma può anche fornire istruzioni dettagliate su come eseguire attacchi informatici, tecniche di ingegneria sociale e altre attività dannose. In alcuni casi, il modello includeva nelle risposte raccomandazioni su come mascherare gli attacchi ed eludere gli strumenti di rilevamento.

Gli esperti avvertono che le vulnerabilità in tali modelli potrebbero portare alla distribuzione su larga scala di strumenti di attacco tra gli intrusi. Sebbene gli sviluppatori LLM tentino di implementare meccanismi di protezione, l’evoluzione dei metodi di bypass rende la lotta contro i jailbreak una corsa continua. Le aziende che utilizzano tali modelli devono monitorarne attentamente l’utilizzo e implementare meccanismi per tracciare le richieste.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.

Articoli in evidenza

Immagine del sitoDiritti
La governance dei flussi di dati tra Direttiva NIS 2 e responsabilità penale omissiva
Paolo Galdieri - 03/02/2026

Dopo aver analizzato nei precedenti contributi il perimetro dei reati informatici e i rischi legati alle manovre di difesa attiva, è necessario compiere un ultimo passo verso la comprensione della cybersecurity moderna ovvero il passaggio…

Immagine del sitoCyber Italia
Formazione avanzata in OSINT: la Polizia Postale rafforza le indagini nel cyberspazio
Massimiliano Brolli - 03/02/2026

Si è concluso la scora settimana, presso la Scuola Allievi Agenti della Polizia di Stato di Vibo Valentia, il corso di formazione specialistica in OSINT – Open Source Intelligence, rivolto agli operatori della Polizia Postale.…

Immagine del sitoCyber Italia
Aggiornamento attacco hacker della Sapienza. Il comunicato agli studenti dal prorettore
Redazione RHC - 02/02/2026

Poco fa, l’Università La Sapienza intorno alle 12:28 ha confermato di essere stata vittima di un attacco informatico che ha costretto al blocco temporaneo di tutti i sistemi digitali dell’ateneo. A darne informazione è il…

Immagine del sitoCybercrime
31,4 Tbps: quando il DDoS diventa “meteo” e l’IoT fa da grandine
Sandro Sana - 02/02/2026

Se vi state chiedendo quanto sia grande 31,4 terabit al secondo, la risposta pratica è: abbastanza da far sembrare “un problema di rete” quello che in realtà è un problema di ecosistema. Perché il punto…

Immagine del sitoCyber Italia
Sapienza paralizzata da un attacco hacker: perché l’università ha spento tutto
Redazione RHC - 02/02/2026

La mattina di lunedì 2 febbraio si è aperta con una notizia inattesa per studenti, docenti e personale della Sapienza Università di Roma. I principali servizi digitali dell’ateneo sono risultati improvvisamente irraggiungibili, generando incertezza e…