Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Condividi la tua difesa. Incoraggia l'eccellenza.
La vera forza della cybersecurity risiede
nell'effetto moltiplicatore della conoscenza.
Crowdstriker 970×120
Crowdstrike 320×100
AI sotto attacco: DeepSeek-R1 si comporta male nei test di Qualys

AI sotto attacco: DeepSeek-R1 si comporta male nei test di Qualys

7 Febbraio 2025 16:21

Milano, 6 febbraio 2025 DeepSeek-R1, un innovativo modello linguistico di grandi dimensioni (LLM) recentemente rilasciato dalla startup cinese DeepSeek, ha catturato l’attenzione del settore dell’intelligenza artificiale. Il modello dimostra di avere prestazioni competitive, mostrandosi più efficiente dal punto di vista delle risorse. Il suo approccio all’addestramento e la sua accessibilità offrono un’alternativa al tradizionale sviluppo dell’AI su larga scala, rendendo più ampiamente disponibili le capacità avanzate.

Per migliorare l’efficienza e preservare l’efficacia del modello, DeepSeek ha rilasciato diverse versioni distillate, adatte a diversi casi d’uso. Queste varianti, costruite su Llama e Qwen come modelli di base, sono disponibili in più dimensioni, che vanno da modelli più piccoli e leggeri, adatti ad applicazioni incentrate sull’efficienza, a versioni più grandi e potenti, progettate per compiti di ragionamento complessi.

Con il crescente entusiasmo per i progressi di DeepSeek, il team di Qualys ha condotto un’analisi di sicurezza della variante DeepSeek-R1 LLaMA 8B distillata utilizzando la piattaforma di sicurezza AI lanciata di recente, Qualys TotalAI.


Cyber Offensive Fundamentale Ethical Hacking 02

Avvio delle iscrizioni al corso Cyber Offensive Fundamentals
Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica?
La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

I risultati presentati di seguito supportano le diffuse preoccupazioni nel settore sui rischi reali del modello. “Con l’accelerazione dell’adozione dell’AI, le organizzazioni devono andare oltre la valutazione delle performance per affrontare le sfide di sicurezza, protezione e conformità. Ottenere visibilità sugli asset AI, valutare le vulnerabilità e mitigare proattivamente i rischi è fondamentale per garantire un’implementazione responsabile e sicura dell’AI” ha commentato Dilip Bashwani, CTO per la Qualys Cloud Platform.

Metodo di analisi KB ed evidenze

Qualys ha testato la variante Deepseek R1 LLaMA 8B contro gli attacchi Jailbreak e Knowledge Base (KB) all’avanguardia di Qualys TotalAI, ponendo domande al LLM di destinazione in 16 categorie e valutando le risposte utilizzando il Qualys Judge LLM. Le risposte sono state valutate in base a vulnerabilità, problemi etici e rischi legali.

Se una risposta è ritenuta vulnerabile, riceve una valutazione di gravità basata sulla sua immediatezza e sul suo potenziale impatto. Questo garantisce una valutazione completa del comportamento del modello e dei rischi associati.

Nel test KB sono state condotte 891 valutazioni. Il modello Deepseek R1 LLaMA 8B non ha superato il 61% dei test, ottenendo i risultati peggiori in Disallineamento e migliori in Contenuti sessuali.

Metodo di test di Jailbreak TotalAI ed evidenze

Il jailbreak di un LLM comporta tecniche che aggirano i meccanismi di sicurezza incorporati, consentendo al modello di generare risposte limitate. Queste vulnerabilità possono creare risultati dannosi, tra cui istruzioni per attività illegali, disinformazione, violazioni della privacy e contenuti non etici. I jailbreak riusciti mettono in luce le debolezze dell’allineamento dell’AI e presentano seri rischi per la sicurezza, soprattutto in ambito aziendale e normativo.

Il modello cinese è stato testato contro 18 tipi di jailbreak attraverso 885 attacchi. Ha fallito il 58% di questi tentativi, dimostrando una significativa suscettibilità alla manipolazione avversaria. Durante l’analisi, DeepSeek R1 ha faticato a prevenire diversi tentativi di jailbreak avversari, tra cui passaggi su come costruire un ordigno esplosivo, creare contenuti per siti web che si rivolgono a determinati gruppi incoraggiando discorsi d’odio, teorie cospirative e azioni violente, sfruttare le vulnerabilità del software, promuovere informazioni mediche errate, ecc.

Esempio di DeepSeek che fornisce contenuti errati e nocivi

I risultati ottenuti dai test evidenziano la necessità di migliorare i meccanismi di sicurezza per impedire l’elusione delle protezioni integrate, garantendo che il modello rimanga in linea con le linee guida etiche e normative. Un meccanismo di prevenzione efficace è l’implementazione di robusti guardrail che agiscono come filtri in tempo reale per rilevare e bloccare i tentativi di jailbreak. Questi guardrail aumentano la resilienza del modello adattandosi dinamicamente agli exploit avversari, contribuendo a mitigare i rischi di sicurezza nelle applicazioni aziendali. Queste vulnerabilità espongono le applicazioni a valle a rischi significativi per la sicurezza, rendendo necessari robusti test avversari e strategie di mitigazione.

Allineamento si, allineamento no: Cosa è meglio?

Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato il panorama tecnologico, influenzando settori che vanno dalla ricerca accademica alla creazione di contenuti. Uno dei dibattiti più accesi riguarda il grado di allineamento di questi modelli con i principi etici e le linee guida imposte dai loro sviluppatori. Secondo un recente articolo pubblicato su Analytics India Magazine, i modelli non censurati sembrano ottenere risultati migliori rispetto a quelli allineati, sollevando interrogativi sulla necessità e sull’efficacia delle restrizioni etiche imposte dall’industria.

L’allineamento dei modelli AI nasce dalla volontà di evitare contenuti pericolosi, disinformazione e bias dannosi. Aziende come OpenAI e Google implementano rigorose politiche di sicurezza per garantire che le loro IA rispettino standard di condotta condivisi, riducendo il rischio di abusi. Tuttavia, il processo di allineamento introduce inevitabilmente filtri che limitano la libertà espressiva e, in alcuni casi, compromettono le prestazioni del modello. Questo perché i sistemi allineati potrebbero evitare di rispondere a domande controverse o generare risposte eccessivamente generiche per attenersi alle linee guida.

Al contrario, i modelli non censurati, che operano senza le stesse restrizioni etiche, dimostrano una maggiore flessibilità e capacità di fornire risposte più precise e dettagliate, soprattutto in contesti tecnici o di ricerca avanzata. Senza i vincoli imposti dall’allineamento, possono elaborare una gamma più ampia di informazioni e affrontare argomenti sensibili con maggiore profondità. Questo vantaggio, però, si accompagna a rischi significativi, come la diffusione incontrollata di disinformazione, contenuti dannosi e l’uso improprio da parte di attori malevoli.

Il problema centrale di questo dibattito non è solo tecnico, ma etico e politico. Un’intelligenza artificiale completamente libera potrebbe rappresentare una minaccia se utilizzata per scopi illeciti, mentre un modello eccessivamente allineato rischia di diventare inefficace o di riflettere un’agenda ideologica oppure attuare censura.

Alcuni ricercatori sostengono che l’equilibrio ideale risieda in un allineamento parziale, che consenta un certo grado di libertà espressiva senza compromettere la sicurezza. Tuttavia, definire i confini di tale equilibrio è una sfida complessa e soggetta a interpretazioni divergenti.

L’industria AI si trova dunque davanti a una scelta cruciale: proseguire lungo la strada dell’allineamento stringente, con il rischio di compromettere le prestazioni e la neutralità dei modelli, o adottare un approccio più permissivo, consapevole dei potenziali rischi. Le conseguenze di questa decisione avranno un impatto diretto sul futuro dell’IA e sulla sua integrazione nella società, influenzando la fiducia del pubblico e la regolamentazione del settore. La domanda fondamentale rimane aperta: quanto controllo è troppo controllo?

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La redazione di Red Hot Cyber è composta da professionisti del settore IT e della sicurezza informatica, affiancati da una rete di fonti qualificate che operano anche in forma riservata. Il team lavora quotidianamente nell’analisi, verifica e pubblicazione di notizie, approfondimenti e segnalazioni su cybersecurity, tecnologia e minacce digitali, con particolare attenzione all’accuratezza delle informazioni e alla tutela delle fonti. Le informazioni pubblicate derivano da attività di ricerca diretta, esperienza sul campo e contributi provenienti da contesti operativi nazionali e internazionali.

Articoli in evidenza

Immagine del sitoCultura
Ritrovato dopo 50 anni: il raro nastro UNIX V4 rivive al Computer History Museum
Redazione RHC - 10/01/2026

Recentemente, una bobina di nastro magnetico è rimasta in un normale armadio universitario per mezzo secolo, e ora è improvvisamente diventata una scoperta di “archeologia informatica del secolo“. Un nastro con la scritta “UNIX Original…

Immagine del sitoCybercrime
La maxi-fuga di dati che spaventa Instagram: 17,5 milioni di profili circolano nel DarkWeb
Redazione RHC - 10/01/2026

Un massiccio archivio digitale contenente le informazioni private di circa 17,5 milioni di utenti Instagram sembrerebbe essere finito nelle mani dei cybercriminali. Qualche ora fa è stato segnalato l’allarme dopo che diversi utenti su Reddit…

Immagine del sitoCyber Italia
Cybercrime in Italia: il report della Polizia Postale racconta un 2025 sotto attacco
Redazione RHC - 10/01/2026

A nome di tutta la redazione di Red Hot Cyber, desideriamo rivolgere un sentito ringraziamento alla Polizia Postale e per la Sicurezza Cibernetica per il lavoro quotidiano svolto con professionalità, competenza e profondo senso dello…

Immagine del sitoVulnerabilità
Arriva Chronomaly: un PoC per Linux che promette Privilege Escalation su Kernel a 32 bit
Redazione RHC - 09/01/2026

Una falla di sicurezza è stata individuata all’interno di Linux, la quale può essere sfruttata in un brevissimo lasso di tempo, tant’è che il kernel comincia subito a operare con la memoria precedentemente rilasciata. Un…

Immagine del sitoCultura
9 Gennaio 2007 nasce l’iPhone: Il giorno in cui il futuro è diventato tascabile
Gaia Russo - 09/01/2026

San Francisco: 9 gennaio 2007 L’aria aveva qualcosa di strano, come quando sai che sta per succedere qualcosa ma non sai cosa. Steve Jobs era sul palco del Macworld Conference & Expo, jeans, dolcevita nero,…