Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Gli scienziati hackerano i Chatbot popolari: cosa potrebbe significare per il futuro dell’IA

Redazione RHC : 2 Agosto 2023 10:12

Non è la prima volta che si scoprono modi che consentono di effettuare delle “promp injection” capaci di bypassare i controlli dei LMM e fargli fornire output malevoli e sicuramente non sarà l’ultimo. Ma questa volta i ricercatori scoprono un approccio diverso che consente di hackerare tutti i più famosi chatbot ad oggi in circolazione.

I ricercatori della School of Computer Science della Carnegie Mellon University, del CyLab Cybersecurity and Privacy Institute e del San Francisco Center for Secure AI hanno identificato congiuntamente una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM).

Gli scienziati hanno proposto un metodo di attacco semplice ed efficace che ha un’alta probabilità di far sì che i modelli linguistici generino risposte indesiderate. 

Sponsorizza la prossima Red Hot Cyber Conference!

Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference. Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.



Supporta RHC attraverso:
  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Si scopre che l’aggiunta di determinati suffissi o parole chiave calcolate matematicamente a un’ampia gamma di query aumenta notevolmente la possibilità che i modelli rispondano comunque alle query degli utenti che altrimenti rifiuterebbero.

Dimostrazione di attacco in ChatGPT , Claude , Bard e Llama-2

Gli scienziati non miravano ad attaccare i modelli linguistici chiusi e i chatbot, ma lo studio ha dimostrato che sono ugualmente vulnerabili agli stessi trucchi dei modelli linguistici aperti. Questo nonostante il fatto che queste vulnerabilità siano state trovate proprio nei modelli aperti.

L’attacco funziona con successo in chatbot popolari come OpenAI ChatGPT, Anthropic Claude, Google Bard e Meta Llama-2. I ricercatori hanno testato il loro metodo su molte domande diverse per dimostrare l’universalità dell’approccio identificato.

La vulnerabilità scoperta mette a rischio l’introduzione sicura dell’intelligenza artificiale nei sistemi autonomi, poiché gli aggressori possono utilizzarla per aggirare la protezione e disabilitare tali sistemi. Ciò può portare a gravi conseguenze con l’uso diffuso di sistemi autonomi in futuro.

Capire come eseguire tali attacchi è spesso il primo passo per sviluppare forti difese contro di loro. 

Al momento, i ricercatori non dispongono di una soluzione universale per prevenire tali attacchi, quindi il passo successivo è trovare un modo per correggere questi modelli e garantirne l’utilizzo sicuro nei sistemi autonomi.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

L’Italia tra i grandi degli Spyware! Un grande terzo posto dopo Israele e USA
Di Redazione RHC - 12/09/2025

Non brilliamo molto nella sicurezza informatica, ma sugli Spyware siamo tra i primi della classe! Secondo una ricerca dell’Atlantic Council, il settore dello spyware è in piena espansione, poiché ...

Addio a PowerShell 2.0 e WMIC! La grande pulizia di Windows 11 è iniziata
Di Redazione RHC - 12/09/2025

Gli utenti di Windows 11 che hanno installato l’aggiornamento di settembre 2025 potrebbero pensare che non cambi praticamente nulla. A prima vista, KB5065426 sembra una normale piccola patch che Mic...

Arriva SpamGPT! il nuovo kit di phishing che combina AI, Spam e Genialità diabolica
Di Redazione RHC - 11/09/2025

Un nuovo strumento chiamato SpamGPT è apparso sui forum underground ed è rapidamente diventato oggetto di discussione nel campo della sicurezza informatica. Il software malevolo combina le capacità...

Gli hacker criminali di The Gentlemen pubblicano un attacco al laboratorio Santa Rita
Di Redazione RHC - 10/09/2025

Nella giornata di oggi, la nuova cyber-gang “The Gentlemen” rivendica all’interno del proprio Data Leak Site (DLS) al laboratorio Santa Rita. Disclaimer: Questo rapporto include screenshot e/o t...

10 su 10! SAP rilascia patch di sicurezza per vulnerabilità critiche in Netweaver
Di Redazione RHC - 10/09/2025

SAP ha reso disponibili degli aggiornamenti per la sicurezza Martedì, con l’obiettivo di risolvere varie vulnerabilità. Tra queste vulnerabilità, ve ne sono tre particolarmente critiche che si ve...