Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

I principali chatbot tra i quali ChatGPT sono stati forzati ad elaborare un piano per distruggere l’umanità

Redazione RHC : 28 Luglio 2023 16:45

I sistemi di intelligenza artificiale stanno diventando parte integrante della nostra vita quotidiana. Tuttavia, è importante ricordare che non sono immuni dagli intrusi e possono essere manipolati.

Di recente, gli scienziati della Carnegie Mellon University e dell’AI Security Center hanno provato a dimostrarlo e hanno trovato difetti nei meccanismi di sicurezza dei chatbot popolari, tra cui ChatGPT, Google Bard e Claude. 

Il documento di ricerca mostra i modi per aggirare gli algoritmi di sicurezza. Se qualcuno avesse scelto in precedenza di sfruttare queste vulnerabilità, ciò avrebbe potuto portare alla diffusione di disinformazione, incitamento all’odio e alimentare il conflitto.


PARTE LA PROMO ESTATE -40%

RedHotCyber Academy lancia una promozione esclusiva e a tempo limitato per chi vuole investire nella propria crescita professionale nel mondo della tecnologia e della cybersecurity!

Approfitta del 40% di sconto sull’acquisto congiunto di 3 corsi da te scelti dalla nostra Academy. Ad esempio potresti fare un percorso formativo includendo Cyber Threat intelligence + NIS2 + Criptovalute con lo sconto del 40%. Tutto questo lo potrai fruire, dove e quando vuoi e con la massima flessibilità, grazie a lezioni di massimo 30 minuti ciascuna.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]



Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


“Questo dimostra molto chiaramente la fragilità dei meccanismi di difesa che incorporiamo in tutti i programmi di intelligenza artificiale”, ha affermato Aviv Ovadia, esperto del Berkman Klein Center for the Internet and the Public.

Nell’esperimento, i ricercatori hanno utilizzato un sistema di dati aperti AI per attaccare i modelli linguistici di OpenAI, Google Anthropic . Dal lancio di ChatGPT lo scorso autunno, gli utenti hanno ripetutamente tentato di forzare la rete neurale a generare contenuti dannosi. Ciò ha costretto gli sviluppatori a limitare la funzionalità del bot.

Tuttavia, gli scienziati della Carnegie Mellon hanno trovato un modo per aggirare la censura impedendo alla rete neurale di riconoscere input dannosi. Ad ogni richiesta veniva aggiunta una lunga stringa di caratteri, che fungeva da travestimento. A causa di questo travestimento, il programma ha generato risposte che non avrebbe dovuto produrre. Ad esempio, è stato possibile “persuadere” l’IA a creare un piano per distruggere l’umanità.

“Con l’aiuto del dialogo modellato in un certo modo, questi chatbot possono essere utilizzati per convincere le persone a cadere nella disinformazione”, ha spiegato il professor Matt Fredrickson.

Lo studio ha confermato che, nonostante gli algoritmi di sicurezza implementati, ci sono sempre scappatoie che gli aggressori possono sfruttare. “In questo momento non c’è una soluzione ovvia. Puoi effettuare tutti gli attacchi che vuoi in breve tempo “, ha affermato l’esperto di Carnegie Mellon Zico Colter.

Prima di pubblicare lo studio, gli autori hanno condiviso i risultati con Anthropic, Google e OpenAI le loro ricerche, che prenderanno le misure appropriate. Questi risultati evidenziano la necessità di un’attenta regolamentazione dell’intelligenza artificiale in futuro.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

3 bug da score 10 sono stati rilevati in Cisco ISE e ISE-PIC: aggiornamenti urgenti
Di Redazione RHC - 18/07/2025

Sono state identificate diverse vulnerabilità nei prodotti Cisco Identity Services Engine (ISE) e Cisco ISE Passive Identity Connector (ISE-PIC) che potrebbero consentire a un utente malintenzion...

Il Video di un Attacco Ransomware in Diretta! Il workshop di HackerHood per Omnia e WithSecure
Di Redazione RHC - 17/07/2025

HackerHood, il team di hacker etici di Red Hot Cyber, ha realizzato qualcosa che raramente si vede fuori dalle conferenze più esclusive: un workshop live in cui viene mostrato, passo dopo passo, ...

Google Chrome, fix in emergenza per un bug critico che porta ad una sandbox escape
Di Redazione RHC - 17/07/2025

Google ha rilasciato un aggiornamento di emergenza per il browser Chrome, eliminando sei vulnerabilità contemporaneamente, una delle quali è già attivamente sfruttata in attacchi reali....

Dentro l’Operazione “Eastwood”: tra le ombre del cyberterrorismo e la propaganda
Di Paolo Galdieri - 17/07/2025

L’operazione internazionale “Eastwood” rappresenta uno spartiacque nella lotta contro il cyberterrorismo. Per la prima volta, un’azione coordinata su scala mondiale ha infe...

Operazione Eastwood: Smantellato il gruppo hacker filorusso NoName057(16)
Di Redazione RHC - 16/07/2025

Nell’ambito delle indagini condotte dalla Procura della Repubblica di Roma e con il coordinamento della Direzione Nazionale Antimafia e Antiterrorismo, la Polizia Postale ha portato a termine i...