Redazione RHC : 28 Luglio 2023 16:45
I sistemi di intelligenza artificiale stanno diventando parte integrante della nostra vita quotidiana. Tuttavia, è importante ricordare che non sono immuni dagli intrusi e possono essere manipolati.
Di recente, gli scienziati della Carnegie Mellon University e dell’AI Security Center hanno provato a dimostrarlo e hanno trovato difetti nei meccanismi di sicurezza dei chatbot popolari, tra cui ChatGPT, Google Bard e Claude.
Il documento di ricerca mostra i modi per aggirare gli algoritmi di sicurezza. Se qualcuno avesse scelto in precedenza di sfruttare queste vulnerabilità, ciò avrebbe potuto portare alla diffusione di disinformazione, incitamento all’odio e alimentare il conflitto.
![]() CALL FOR SPONSOR - Sponsorizza l'ottavo episodio della serie Betti-RHCSei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"? Conosci il nostro corso sul cybersecurity awareness a fumetti? Red Hot Cyber sta ricercando un nuovo sponsor per una nuova puntata del fumetto Betti-RHC mentre il team è impegnato a realizzare 3 nuovi episodi che ci sono stati commissionati. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
“Questo dimostra molto chiaramente la fragilità dei meccanismi di difesa che incorporiamo in tutti i programmi di intelligenza artificiale”, ha affermato Aviv Ovadia, esperto del Berkman Klein Center for the Internet and the Public.
Nell’esperimento, i ricercatori hanno utilizzato un sistema di dati aperti AI per attaccare i modelli linguistici di OpenAI, Google e Anthropic . Dal lancio di ChatGPT lo scorso autunno, gli utenti hanno ripetutamente tentato di forzare la rete neurale a generare contenuti dannosi. Ciò ha costretto gli sviluppatori a limitare la funzionalità del bot.
Tuttavia, gli scienziati della Carnegie Mellon hanno trovato un modo per aggirare la censura impedendo alla rete neurale di riconoscere input dannosi. Ad ogni richiesta veniva aggiunta una lunga stringa di caratteri, che fungeva da travestimento. A causa di questo travestimento, il programma ha generato risposte che non avrebbe dovuto produrre. Ad esempio, è stato possibile “persuadere” l’IA a creare un piano per distruggere l’umanità.
“Con l’aiuto del dialogo modellato in un certo modo, questi chatbot possono essere utilizzati per convincere le persone a cadere nella disinformazione”, ha spiegato il professor Matt Fredrickson.
Lo studio ha confermato che, nonostante gli algoritmi di sicurezza implementati, ci sono sempre scappatoie che gli aggressori possono sfruttare. “In questo momento non c’è una soluzione ovvia. Puoi effettuare tutti gli attacchi che vuoi in breve tempo “, ha affermato l’esperto di Carnegie Mellon Zico Colter.
Prima di pubblicare lo studio, gli autori hanno condiviso i risultati con Anthropic, Google e OpenAI le loro ricerche, che prenderanno le misure appropriate. Questi risultati evidenziano la necessità di un’attenta regolamentazione dell’intelligenza artificiale in futuro.
Il 20 settembre scorso abbiamo riportato di un attacco informatico che ha paralizzato diversi aeroporti europei tra cui Bruxelles, Berlino e Londra-Heathrow. Si è trattato di un attacco alla supply c...
Il sistema penitenziario rumeno si è trovato al centro di un importante scandalo digitale: i detenuti di Târgu Jiu hanno hackerato la piattaforma interna dell’ANP e, per diversi mesi, hanno gestit...
Le autorità del Wisconsin hanno deciso di andare oltre la maggior parte degli altri stati americani nel promuovere la verifica obbligatoria dell’età per l’accesso a contenuti per adulti. L’AB ...
Il 10 ottobre 2025 le autorità lettoni hanno condotto una giornata di azione che ha portato all’arresto di cinque cittadini lettoni sospettati di gestire un’articolata rete di frodi telematiche. ...
Il CERT-AGID ha rilevato una nuova variante del phishing ai danni di PagoPA. La campagna, ancora a tema multe come le precedenti, sfrutta questa volta un meccanismo di open redirect su domini legittim...