
Redazione RHC : 2 Agosto 2023 10:12
Non è la prima volta che si scoprono modi che consentono di effettuare delle “promp injection” capaci di bypassare i controlli dei LMM e fargli fornire output malevoli e sicuramente non sarà l’ultimo. Ma questa volta i ricercatori scoprono un approccio diverso che consente di hackerare tutti i più famosi chatbot ad oggi in circolazione.
I ricercatori della School of Computer Science della Carnegie Mellon University, del CyLab Cybersecurity and Privacy Institute e del San Francisco Center for Secure AI hanno identificato congiuntamente una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM).
Gli scienziati hanno proposto un metodo di attacco semplice ed efficace che ha un’alta probabilità di far sì che i modelli linguistici generino risposte indesiderate.
Scarica Gratuitamente Byte The Silence, il fumetto sul Cyberbullismo di Red Hot Cyber"Il cyberbullismo è una delle minacce più insidiose e silenziose che colpiscono i nostri ragazzi. Non si tratta di semplici "bravate online", ma di veri e propri atti di violenza digitale, capaci di lasciare ferite profonde e spesso irreversibili nell’animo delle vittime. Non possiamo più permetterci di chiudere gli occhi". Così si apre la prefazione del fumetto di Massimiliano Brolli, fondatore di Red Hot Cyber, un’opera che affronta con sensibilità e realismo uno dei temi più urgenti della nostra epoca. Distribuito gratuitamente, questo fumetto nasce con l'obiettivo di sensibilizzare e informare. È uno strumento pensato per scuole, insegnanti, genitori e vittime, ma anche per chi, per qualsiasi ragione, si è ritrovato nel ruolo del bullo, affinché possa comprendere, riflettere e cambiare. Con la speranza che venga letto, condiviso e discusso, Red Hot Cyber è orgogliosa di offrire un contributo concreto per costruire una cultura digitale più consapevole, empatica e sicura. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Si scopre che l’aggiunta di determinati suffissi o parole chiave calcolate matematicamente a un’ampia gamma di query aumenta notevolmente la possibilità che i modelli rispondano comunque alle query degli utenti che altrimenti rifiuterebbero.

Gli scienziati non miravano ad attaccare i modelli linguistici chiusi e i chatbot, ma lo studio ha dimostrato che sono ugualmente vulnerabili agli stessi trucchi dei modelli linguistici aperti. Questo nonostante il fatto che queste vulnerabilità siano state trovate proprio nei modelli aperti.
L’attacco funziona con successo in chatbot popolari come OpenAI ChatGPT, Anthropic Claude, Google Bard e Meta Llama-2. I ricercatori hanno testato il loro metodo su molte domande diverse per dimostrare l’universalità dell’approccio identificato.
La vulnerabilità scoperta mette a rischio l’introduzione sicura dell’intelligenza artificiale nei sistemi autonomi, poiché gli aggressori possono utilizzarla per aggirare la protezione e disabilitare tali sistemi. Ciò può portare a gravi conseguenze con l’uso diffuso di sistemi autonomi in futuro.
Capire come eseguire tali attacchi è spesso il primo passo per sviluppare forti difese contro di loro.
Al momento, i ricercatori non dispongono di una soluzione universale per prevenire tali attacchi, quindi il passo successivo è trovare un modo per correggere questi modelli e garantirne l’utilizzo sicuro nei sistemi autonomi.
Redazione
Per la seconda volta negli ultimi mesi, Google è stata costretta a smentire le notizie di una massiccia violazione dei dati di Gmail. La notizia è stata scatenata dalle segnalazioni di un “hacking...

Il panorama della sicurezza informatica è stato recentemente scosso dalla scoperta di una vulnerabilità critica di tipo Remote Code Execution (RCE) nel servizio Windows Server Update Services (WSUS)...

Gli sviluppatori del gestore di password LastPass hanno avvisato gli utenti di una campagna di phishing su larga scala iniziata a metà ottobre 2025. Gli aggressori stanno inviando e-mail contenenti f...

I ricercatori di NeuralTrust hanno scoperto una vulnerabilità nel browser di ChatGPT Atlas di OpenAI. Questa volta, il vettore di attacco è collegato alla omnibox, la barra in cui gli utenti inseris...

Wordfence lancia l’allarme su una campagna malware su larga scala in cui gli aggressori stanno sfruttando vulnerabilità critiche nei popolari plugin di WordPress GutenKit e Hunk Companion. L’azie...