Redazione RHC : 3 Febbraio 2025 14:09
Ricercatori di Palo Alto dalla squadra Unit 42 hanno identificato delle vulnerabilità nel modello linguistico DeepSeek che consentono di aggirare i suoi meccanismi di difesa e di forzare la visualizzazione di contenuti proibiti. Utilizzando tre tecniche evasione – Deceptive Delight, Bad Likert Judge, sono riusciti a raggiungere alti tassi di aggiramento delle restrizioni senza la necessità di una conoscenza tecnica approfondita.
DeepSeek è un’azienda cinese che ha rilasciato due importanti modelli di linguaggio aperto: DeepSeek-V3 nel dicembre 2024 e DeepSeek-R1 nel gennaio 2025. Questi modelli stanno diventando concorrenti dei popolari modelli di OpenAI e si stanno sviluppando attivamente. La ricerca dell’Unità 42 ha dimostrato che anche la sua versione più avanzata resta vulnerabile alla manipolazione, consentendo la generazione di materiali potenzialmente pericolosi.
La tecnica Bad Likert Judge utilizza un sistema di scala di risposta in cui il modello classifica il contenuto in base alla nocività e poi produce esempi dettagliati basati su tali classificazioni.
Sei un Esperto di Formazione?
Entra anche tu nel Partner program! Accedi alla sezione riservata ai Creator sulla nostra Academy e scopri i vantaggi riservati ai membri del Partner program.
Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]
Supporta RHC attraverso:
Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.
Questo metodo ha permesso ai ricercatori di ottenere istruzioni su come creare strumenti per il furto di dati e keylogger. Nonostante gli iniziali fallimenti del modello, le query di perfezionamento hanno permesso di aggirare le limitazioni e di ottenere algoritmi dettagliati per gli sviluppatori di malware.
Si tratta di una tecnica di creazione graduale di query in cui il modello prima risponde a domande generali e poi, dopo diverse iterazioni, inizia a impartire istruzioni per azioni proibite. Nei test dei ricercatori, il metodo ha prodotto istruzioni dettagliate per la preparazione di bombe molotov, nonché altro materiale su argomenti correlati alla violenza, al traffico di droga e alla manipolazione sociale.
Deceptive Delight si basa sull’intreccio di contenuti dannosi in una narrazione positiva. Ad esempio, i ricercatori hanno chiesto al modello di creare una storia che collegasse una competizione sulla sicurezza informatica, una prestigiosa università e l’uso di DCOM per eseguire comandi da remoto. In risposta, DeepSeek ha generato un codice di esempio che potrebbe essere utilizzato per attaccare i computer basati su Windows.
Gli esperimenti hanno dimostrato che DeepSeek non solo è vulnerabile a tali attacchi, ma può anche fornire istruzioni dettagliate su come eseguire attacchi informatici, tecniche di ingegneria sociale e altre attività dannose. In alcuni casi, il modello includeva nelle risposte raccomandazioni su come mascherare gli attacchi ed eludere gli strumenti di rilevamento.
Gli esperti avvertono che le vulnerabilità in tali modelli potrebbero portare alla distribuzione su larga scala di strumenti di attacco tra gli intrusi. Sebbene gli sviluppatori LLM tentino di implementare meccanismi di protezione, l’evoluzione dei metodi di bypass rende la lotta contro i jailbreak una corsa continua. Le aziende che utilizzano tali modelli devono monitorarne attentamente l’utilizzo e implementare meccanismi per tracciare le richieste.
I ricercatori di Okta hanno notato che aggressori sconosciuti stanno utilizzando lo strumento di intelligenza artificiale generativa v0 di Vercel per creare pagine false che imitano qu...
Google è al centro di un’imponente causa in California che si è conclusa con la decisione di pagare oltre 314 milioni di dollari agli utenti di smartphone Android nello stato. Una giu...
La RHC Conference 2025, organizzata da Red Hot Cyber, ha rappresentato un punto di riferimento per la comunità italiana della cybersecurity, offrendo un ricco programma di talk, workshop e compet...
Nella giornata di ieri, Red Hot Cyber ha pubblicato un approfondimento su una grave vulnerabilità scoperta in SUDO (CVE-2025-32463), che consente l’escalation dei privilegi a root in ambie...
Il Dipartimento di Giustizia degli Stati Uniti ha annunciato la scoperta di un sistema su larga scala in cui falsi specialisti IT provenienti dalla RPDC i quali ottenevano lavoro presso aziende americ...
Copyright @ REDHOTCYBER Srl
PIVA 17898011006