Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

I principali chatbot tra i quali ChatGPT sono stati forzati ad elaborare un piano per distruggere l’umanità

Redazione RHC : 28 Luglio 2023 16:45

I sistemi di intelligenza artificiale stanno diventando parte integrante della nostra vita quotidiana. Tuttavia, è importante ricordare che non sono immuni dagli intrusi e possono essere manipolati.

Di recente, gli scienziati della Carnegie Mellon University e dell’AI Security Center hanno provato a dimostrarlo e hanno trovato difetti nei meccanismi di sicurezza dei chatbot popolari, tra cui ChatGPT, Google Bard e Claude. 

Il documento di ricerca mostra i modi per aggirare gli algoritmi di sicurezza. Se qualcuno avesse scelto in precedenza di sfruttare queste vulnerabilità, ciò avrebbe potuto portare alla diffusione di disinformazione, incitamento all’odio e alimentare il conflitto.

Iscriviti GRATIS alla RHC Conference 2025 (Venerdì 9 maggio 2025)

Il giorno Venerdì 9 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la RHC Conference 2025. Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico.

La giornata inizierà alle 9:30 (con accoglienza dalle 9:00) e sarà interamente dedicata alla RHC Conference, un evento di spicco nel campo della sicurezza informatica. Il programma prevede un panel con ospiti istituzionali che si terrà all’inizio della conferenza. Successivamente, numerosi interventi di esperti nazionali nel campo della sicurezza informatica si susseguiranno sul palco fino alle ore 19:00 circa, quando termineranno le sessioni. Prima del termine della conferenza, ci sarà la premiazione dei vincitori della Capture The Flag prevista per le ore 18:00.
Potete iscrivervi gratuitamente all'evento utilizzando questo link.

Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765


Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

“Questo dimostra molto chiaramente la fragilità dei meccanismi di difesa che incorporiamo in tutti i programmi di intelligenza artificiale”, ha affermato Aviv Ovadia, esperto del Berkman Klein Center for the Internet and the Public.

Nell’esperimento, i ricercatori hanno utilizzato un sistema di dati aperti AI per attaccare i modelli linguistici di OpenAI, Google Anthropic . Dal lancio di ChatGPT lo scorso autunno, gli utenti hanno ripetutamente tentato di forzare la rete neurale a generare contenuti dannosi. Ciò ha costretto gli sviluppatori a limitare la funzionalità del bot.

Tuttavia, gli scienziati della Carnegie Mellon hanno trovato un modo per aggirare la censura impedendo alla rete neurale di riconoscere input dannosi. Ad ogni richiesta veniva aggiunta una lunga stringa di caratteri, che fungeva da travestimento. A causa di questo travestimento, il programma ha generato risposte che non avrebbe dovuto produrre. Ad esempio, è stato possibile “persuadere” l’IA a creare un piano per distruggere l’umanità.

“Con l’aiuto del dialogo modellato in un certo modo, questi chatbot possono essere utilizzati per convincere le persone a cadere nella disinformazione”, ha spiegato il professor Matt Fredrickson.

Lo studio ha confermato che, nonostante gli algoritmi di sicurezza implementati, ci sono sempre scappatoie che gli aggressori possono sfruttare. “In questo momento non c’è una soluzione ovvia. Puoi effettuare tutti gli attacchi che vuoi in breve tempo “, ha affermato l’esperto di Carnegie Mellon Zico Colter.

Prima di pubblicare lo studio, gli autori hanno condiviso i risultati con Anthropic, Google e OpenAI le loro ricerche, che prenderanno le misure appropriate. Questi risultati evidenziano la necessità di un’attenta regolamentazione dell’intelligenza artificiale in futuro.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Nessuna riga di codice! Darcula inonda il mondo con il Phishing rubando 884.000 carte di credito

Nel mondo del cybercrime organizzato, Darcula rappresenta un salto di paradigma. Non stiamo parlando di un semplice kit di phishing o di una botnet mal gestita. Darcula è una piattaforma vera e p...

+358% di attacchi DDoS: l’inferno digitale si è scatenato nel 2024

Cloudflare afferma di aver prevenuto un numero record di attacchi DDoS da record nel 2024. Il numero di incidenti è aumentato del 358% rispetto all’anno precedente e del 198% ris...

25 Milioni di SIM da Sostituire dopo l’Attacco Cyber! Il Disastro di SK Telecom Sconvolge la Corea del Sud

Il gigante delle telecomunicazioni sudcoreano SK Telecom ha sospeso le sottoscrizioni di nuovi abbonati in tutto il paese, concentrandosi sulla sostituzione delle schede SIM di 25 milioni di...

Bambini e adolescenti nel mirino del web: la Polizia Postale svela le nuove minacce digitali

“La protezione dei diritti di bambini e adolescenti rappresenta una priorità per la Polizia di Stato e richiede un’attenta valutazione delle minacce emergenti, l’impiego di t...

StealC V2: anatomia di un malware moderno e modulare

Nel vasto arsenale del cybercrimine, una categoria di malware continua ad evolversi con una velocità e una precisione quasi industriale: gli information stealer. Questi strumenti, nati inizialmen...