Red Hot Cyber

La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.

Crowdtour Promo Banner For Milan V1 320x100 Mobile

I principali chatbot tra i quali ChatGPT sono stati forzati ad elaborare un piano per distruggere l’umanità

Redazione RHC : 28 Luglio 2023 16:45

I sistemi di intelligenza artificiale stanno diventando parte integrante della nostra vita quotidiana. Tuttavia, è importante ricordare che non sono immuni dagli intrusi e possono essere manipolati.

Di recente, gli scienziati della Carnegie Mellon University e dell’AI Security Center hanno provato a dimostrarlo e hanno trovato difetti nei meccanismi di sicurezza dei chatbot popolari, tra cui ChatGPT, Google Bard e Claude.

Il documento di ricerca mostra i modi per aggirare gli algoritmi di sicurezza. Se qualcuno avesse scelto in precedenza di sfruttare queste vulnerabilità, ciò avrebbe potuto portare alla diffusione di disinformazione, incitamento all’odio e alimentare il conflitto.

CALL FOR SPONSOR - Sponsorizza l'ottavo episodio della serie Betti-RHC

Sei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"?
Conosci il nostro corso sul cybersecurity awareness a fumetti?
Red Hot Cyber sta ricercando un nuovo sponsor per una nuova puntata del fumetto Betti-RHC mentre il team è impegnato a realizzare 3 nuovi episodi che ci sono stati commissionati.
Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]

Supporta Red Hot Cyber attraverso:

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

“Questo dimostra molto chiaramente la fragilità dei meccanismi di difesa che incorporiamo in tutti i programmi di intelligenza artificiale”, ha affermato Aviv Ovadia, esperto del Berkman Klein Center for the Internet and the Public.

Nell’esperimento, i ricercatori hanno utilizzato un sistema di dati aperti AI per attaccare i modelli linguistici di OpenAI, Google e Anthropic . Dal lancio di ChatGPT lo scorso autunno, gli utenti hanno ripetutamente tentato di forzare la rete neurale a generare contenuti dannosi. Ciò ha costretto gli sviluppatori a limitare la funzionalità del bot.

Tuttavia, gli scienziati della Carnegie Mellon hanno trovato un modo per aggirare la censura impedendo alla rete neurale di riconoscere input dannosi. Ad ogni richiesta veniva aggiunta una lunga stringa di caratteri, che fungeva da travestimento. A causa di questo travestimento, il programma ha generato risposte che non avrebbe dovuto produrre. Ad esempio, è stato possibile “persuadere” l’IA a creare un piano per distruggere l’umanità.

“Con l’aiuto del dialogo modellato in un certo modo, questi chatbot possono essere utilizzati per convincere le persone a cadere nella disinformazione”, ha spiegato il professor Matt Fredrickson.

Lo studio ha confermato che, nonostante gli algoritmi di sicurezza implementati, ci sono sempre scappatoie che gli aggressori possono sfruttare. “In questo momento non c’è una soluzione ovvia. Puoi effettuare tutti gli attacchi che vuoi in breve tempo “, ha affermato l’esperto di Carnegie Mellon Zico Colter.

Prima di pubblicare lo studio, gli autori hanno condiviso i risultati con Anthropic, Google e OpenAI le loro ricerche, che prenderanno le misure appropriate. Questi risultati evidenziano la necessità di un’attenta regolamentazione dell’intelligenza artificiale in futuro.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

I detenuti hackerano il carcere: pene ridotte, fondi trasferiti e visite non autorizzate

Di Redazione RHC - 18/10/2025

Il sistema penitenziario rumeno si è trovato al centro di un importante scandalo digitale: i detenuti di Târgu Jiu hanno hackerato la piattaforma interna dell’ANP e, per diversi mesi, hanno gestit...

Usare una VPN per vedere contenuti per adulti? In Wisconsin sarà un reato

Di Redazione RHC - 18/10/2025

Le autorità del Wisconsin hanno deciso di andare oltre la maggior parte degli altri stati americani nel promuovere la verifica obbligatoria dell’età per l’accesso a contenuti per adulti. L’AB ...

Operazione SIMCARTEL: 1.200 SIM-box e 40.000 schede SIM fermate da Europol

Di Redazione RHC - 18/10/2025

Il 10 ottobre 2025 le autorità lettoni hanno condotto una giornata di azione che ha portato all’arresto di cinque cittadini lettoni sospettati di gestire un’articolata rete di frodi telematiche. ...

Phishing contro PagoPA: nuova campagna abusa di open redirect Google

Di Redazione RHC - 17/10/2025

Il CERT-AGID ha rilevato una nuova variante del phishing ai danni di PagoPA. La campagna, ancora a tema multe come le precedenti, sfrutta questa volta un meccanismo di open redirect su domini legittim...

Nvidia perde il 95% dal mercato AI Cinese! Le restrizioni all’export fanno crollare la quota

Di Redazione RHC - 17/10/2025

Jen-Hsun Huang, fondatore e CEO di Nvidia, ha rivelato che le recenti restrizioni all’esportazione hanno drasticamente ridotto la presenza dei chip AI dell’azienda in Cina, passando dal 95% a una ...