Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Banner Ancharia Desktop 1 1
Banner Ransomfeed 320x100 1
Il Jailbreak Per DeepSeek è Servito! Come Palo Alto Ha Bypassato I controlli dell’AI

Il Jailbreak Per DeepSeek è Servito! Come Palo Alto Ha Bypassato I controlli dell’AI

Redazione RHC : 3 Febbraio 2025 14:09

Ricercatori di Palo Alto dalla squadra Unit 42 hanno identificato delle vulnerabilità nel modello linguistico DeepSeek che consentono di aggirare i suoi meccanismi di difesa e di forzare la visualizzazione di contenuti proibiti. Utilizzando tre tecniche evasione – Deceptive Delight, Bad Likert Judge, sono riusciti a raggiungere alti tassi di aggiramento delle restrizioni senza la necessità di una conoscenza tecnica approfondita.

DeepSeek è un’azienda cinese che ha rilasciato due importanti modelli di linguaggio aperto: DeepSeek-V3 nel dicembre 2024 e DeepSeek-R1 nel gennaio 2025. Questi modelli stanno diventando concorrenti dei popolari modelli di OpenAI e si stanno sviluppando attivamente. La ricerca dell’Unità 42 ha dimostrato che anche la sua versione più avanzata resta vulnerabile alla manipolazione, consentendo la generazione di materiali potenzialmente pericolosi.

La tecnica Bad Likert Judge utilizza un sistema di scala di risposta in cui il modello classifica il contenuto in base alla nocività e poi produce esempi dettagliati basati su tali classificazioni.


Enterprise

Prova la Demo di Business Log! Adaptive SOC italiano
Log management non solo per la grande Azienda, ma una suite di Audit file, controllo USB, asset, sicurezza e un Security Operation Center PERSONALE, che ti riporta tutte le operazioni necessarie al tuo PC per tutelare i tuoi dati e informati in caso di problemi nel tuo ambiente privato o di lavoro. Scarica ora la Demo di Business Log per 30gg


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Questo metodo ha permesso ai ricercatori di ottenere istruzioni su come creare strumenti per il furto di dati e keylogger. Nonostante gli iniziali fallimenti del modello, le query di perfezionamento hanno permesso di aggirare le limitazioni e di ottenere algoritmi dettagliati per gli sviluppatori di malware.

Si tratta di una tecnica di creazione graduale di query in cui il modello prima risponde a domande generali e poi, dopo diverse iterazioni, inizia a impartire istruzioni per azioni proibite. Nei test dei ricercatori, il metodo ha prodotto istruzioni dettagliate per la preparazione di bombe molotov, nonché altro materiale su argomenti correlati alla violenza, al traffico di droga e alla manipolazione sociale.

Deceptive Delight si basa sull’intreccio di contenuti dannosi in una narrazione positiva. Ad esempio, i ricercatori hanno chiesto al modello di creare una storia che collegasse una competizione sulla sicurezza informatica, una prestigiosa università e l’uso di DCOM per eseguire comandi da remoto. In risposta, DeepSeek ha generato un codice di esempio che potrebbe essere utilizzato per attaccare i computer basati su Windows.

Gli esperimenti hanno dimostrato che DeepSeek non solo è vulnerabile a tali attacchi, ma può anche fornire istruzioni dettagliate su come eseguire attacchi informatici, tecniche di ingegneria sociale e altre attività dannose. In alcuni casi, il modello includeva nelle risposte raccomandazioni su come mascherare gli attacchi ed eludere gli strumenti di rilevamento.

Gli esperti avvertono che le vulnerabilità in tali modelli potrebbero portare alla distribuzione su larga scala di strumenti di attacco tra gli intrusi. Sebbene gli sviluppatori LLM tentino di implementare meccanismi di protezione, l’evoluzione dei metodi di bypass rende la lotta contro i jailbreak una corsa continua. Le aziende che utilizzano tali modelli devono monitorarne attentamente l’utilizzo e implementare meccanismi per tracciare le richieste.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Google, Amazon e Meta e la loro “Guerra Sottomarina”
Di Redazione RHC - 14/11/2025

Il traffico globale, come sanno i lettori di RHC, viaggia per la maggior parte sotto il mare. Secondo TeleGeography, istituto specializzato nelle telecomunicazioni, nel mondo sono attivi più di 530 s...

Immagine del sito
Una campagna di spionaggio “autonoma” è stata orchestrata dall’intelligenza artificiale
Di Redazione RHC - 14/11/2025

Un’analisi condotta negli ultimi mesi aveva evidenziato come l’evoluzione dei sistemi di intelligenza artificiale stesse raggiungendo un punto critico per la sicurezza informatica, con capacità r...

Immagine del sito
Uno 0day su FortiWeb WAF sfruttato attivamente! E rimuovete le interfacce di Admin da Internet
Di Redazione RHC - 14/11/2025

Gli aggressori stanno attivamente sfruttando una falla critica nel sistema di protezione delle applicazioni web FortiWeb (WAF) prodotto da Fortinet, che potrebbe essere utilizzata come mezzo per condu...

Immagine del sito
Un bug 0Day per un plugin WordPress in vendita a 6000 euro nelle underground
Di Redazione RHC - 14/11/2025

Su uno dei più noti forum russi per la compravendita di vulnerabilità e strumenti offensivi, il thread è arrivato come una normale inserzione commerciale, ma il contenuto è tutt’altro che banale...

Immagine del sito
Cos’è la Misevoluzione: l’Evoluzione Autonoma degli Agenti AI, e non è sempre buona
Di Redazione RHC - 13/11/2025

Shanghai, 11 novembre 2025 – Un nuovo studio condotto dallo Shanghai Artificial Intelligence Laboratory, in collaborazione con la Shanghai Jiao Tong University, la Renmin University of China e la Pr...