Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Il Jailbreak Per DeepSeek è Servito! Come Palo Alto Ha Bypassato I controlli dell’AI

Redazione RHC : 3 Febbraio 2025 14:09

Ricercatori di Palo Alto dalla squadra Unit 42 hanno identificato delle vulnerabilità nel modello linguistico DeepSeek che consentono di aggirare i suoi meccanismi di difesa e di forzare la visualizzazione di contenuti proibiti. Utilizzando tre tecniche evasione – Deceptive Delight, Bad Likert Judge, sono riusciti a raggiungere alti tassi di aggiramento delle restrizioni senza la necessità di una conoscenza tecnica approfondita.

DeepSeek è un’azienda cinese che ha rilasciato due importanti modelli di linguaggio aperto: DeepSeek-V3 nel dicembre 2024 e DeepSeek-R1 nel gennaio 2025. Questi modelli stanno diventando concorrenti dei popolari modelli di OpenAI e si stanno sviluppando attivamente. La ricerca dell’Unità 42 ha dimostrato che anche la sua versione più avanzata resta vulnerabile alla manipolazione, consentendo la generazione di materiali potenzialmente pericolosi.

La tecnica Bad Likert Judge utilizza un sistema di scala di risposta in cui il modello classifica il contenuto in base alla nocività e poi produce esempi dettagliati basati su tali classificazioni.


Vuoi diventare un esperto del Dark Web e della Cyber Threat Intelligence (CTI)?
Stiamo per avviare il corso intermedio in modalità "Live Class", previsto per febbraio.
A differenza dei corsi in e-learning, disponibili online sulla nostra piattaforma con lezioni pre-registrate, i corsi in Live Class offrono un’esperienza formativa interattiva e coinvolgente.
Condotti dal professor Pietro Melillo, le lezioni si svolgono online in tempo reale, permettendo ai partecipanti di interagire direttamente con il docente e approfondire i contenuti in modo personalizzato. Questi corsi, ideali per aziende, consentono di sviluppare competenze mirate, affrontare casi pratici e personalizzare il percorso formativo in base alle esigenze specifiche del team, garantendo un apprendimento efficace e immediatamente applicabile.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]



Supporta RHC attraverso:
  • L'acquisto del fumetto sul Cybersecurity Awareness
  • Ascoltando i nostri Podcast
  • Seguendo RHC su WhatsApp
  • Seguendo RHC su Telegram
  • Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab


  • Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


    Questo metodo ha permesso ai ricercatori di ottenere istruzioni su come creare strumenti per il furto di dati e keylogger. Nonostante gli iniziali fallimenti del modello, le query di perfezionamento hanno permesso di aggirare le limitazioni e di ottenere algoritmi dettagliati per gli sviluppatori di malware.

    Si tratta di una tecnica di creazione graduale di query in cui il modello prima risponde a domande generali e poi, dopo diverse iterazioni, inizia a impartire istruzioni per azioni proibite. Nei test dei ricercatori, il metodo ha prodotto istruzioni dettagliate per la preparazione di bombe molotov, nonché altro materiale su argomenti correlati alla violenza, al traffico di droga e alla manipolazione sociale.

    Deceptive Delight si basa sull’intreccio di contenuti dannosi in una narrazione positiva. Ad esempio, i ricercatori hanno chiesto al modello di creare una storia che collegasse una competizione sulla sicurezza informatica, una prestigiosa università e l’uso di DCOM per eseguire comandi da remoto. In risposta, DeepSeek ha generato un codice di esempio che potrebbe essere utilizzato per attaccare i computer basati su Windows.

    Gli esperimenti hanno dimostrato che DeepSeek non solo è vulnerabile a tali attacchi, ma può anche fornire istruzioni dettagliate su come eseguire attacchi informatici, tecniche di ingegneria sociale e altre attività dannose. In alcuni casi, il modello includeva nelle risposte raccomandazioni su come mascherare gli attacchi ed eludere gli strumenti di rilevamento.

    Gli esperti avvertono che le vulnerabilità in tali modelli potrebbero portare alla distribuzione su larga scala di strumenti di attacco tra gli intrusi. Sebbene gli sviluppatori LLM tentino di implementare meccanismi di protezione, l’evoluzione dei metodi di bypass rende la lotta contro i jailbreak una corsa continua. Le aziende che utilizzano tali modelli devono monitorarne attentamente l’utilizzo e implementare meccanismi per tracciare le richieste.

    Redazione
    La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

    Lista degli articoli

    Articoli in evidenza

    Hai la carta di credito in tasca? I Criminal hacker ringraziano!
    Di Redazione RHC - 16/08/2025

    Una nuova campagna malware per Android sta prendendo di mira i clienti bancari in Brasile, India e Sud-est asiatico, combinando frodi contactless NFC, intercettazione delle chiamate e sfruttamento del...

    Google Chrome a tutta Privacy! Un nuovo blocco per gli script in modalità incognito
    Di Redazione RHC - 16/08/2025

    Google sta testando una nuova funzionalità per migliorare la privacy nella modalità di navigazione in incognito di Chrome su Windows: il blocco degli script in incognito (PrivacySandboxFinge...

    Droni in missione potranno decidere in modo autonomo quali uomini uccidere?
    Di Redazione RHC - 15/08/2025

    Sembra che gli Stati Uniti abbiano già seriamente preso in considerazione il concetto di guerra autonoma. Il jet da combattimento autonomo della DARPA , risulta in grado di combattere senza pilot...

    CrowdStrike Global Threat Report 2025: l’anno dell’avversario intraprendente
    Di Redazione RHC - 15/08/2025

    CrowdStrike ha pubblicato il suo Global Threat Report 2025, che documenta un balzo in avanti nel comportamento dei criminali informatici e dei gruppi statali. Gli esperti definiscono il 2024 “l...

    Dopo il bucato, Figure 02 ora piega il bucato. Ma per ora dovrai continuare a farlo da solo
    Di Redazione RHC - 15/08/2025

    Solamente due settimane fa, il robot umanoide prodotto da Figure ha destato in noi grande meraviglia, quando con destrezza ha preso degli indumenti da un paniere dei panni sporchi e li ha collocati al...