Red Hot Cyber

La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.

Il lato oscuro di GPT-3.5 Turbo: Come gli utenti possono manipolare il modello

Redazione RHC : 22 Ottobre 2023 09:01

Secondo un nuovo studio condotto da diversi scienziati, le restrizioni progettate per impedire la produzione di contenuti tossici nei Large Language Models (LLM), come GPT-3.5 Turbo di OpenAI, si sono rivelate vulnerabili.

Un team di ricercatori ha condotto esperimenti per scoprire se le attuali misure di sicurezza possono resistere ai tentativi di aggirarle.

I risultati hanno mostrato che utilizzando un’ulteriore messa a punto del modello (fine-tuning) è possibile aggirare le misure di sicurezza. Questa impostazione potrebbe far sì che i chatbot offrano strategie di suicidio, consigli dannosi e altri tipi di contenuti problematici.

*Un esempio di risposta di un chatbot dopo la messa a punto*

Scarica Gratuitamente Byte The Silence, il fumetto sul Cyberbullismo di Red Hot Cyber

«Il cyberbullismo è una delle minacce più insidiose e silenziose che colpiscono i nostri ragazzi. Non si tratta di semplici "bravate online", ma di veri e propri atti di violenza digitale, capaci di lasciare ferite profonde e spesso irreversibili nell’animo delle vittime. Non possiamo più permetterci di chiudere gli occhi». Così si apre la prefazione del fumetto di Massimiliano Brolli, fondatore di Red Hot Cyber, un’opera che affronta con sensibilità e realismo uno dei temi più urgenti della nostra epoca. Distribuito gratuitamente, questo fumetto nasce con l'obiettivo di sensibilizzare e informare. È uno strumento pensato per scuole, insegnanti, genitori e vittime, ma anche per chi, per qualsiasi ragione, si è ritrovato nel ruolo del bullo, affinché possa comprendere, riflettere e cambiare. Con la speranza che venga letto, condiviso e discusso, Red Hot Cyber è orgogliosa di offrire un contributo concreto per costruire una cultura digitale più consapevole, empatica e sicura.

Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]

Supporta RHC attraverso:

L'acquisto del fumetto sul Cybersecurity Awareness

Ascoltando i nostri Podcast

Seguendo RHC su WhatsApp

Seguendo RHC su Telegram

Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab

Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

Il rischio principale è che gli utenti possano registrarsi per utilizzare un modello LLM, come GPT-3.5 Turbo, nel cloud tramite l’API, applicare la personalizzazione e utilizzare il modello per attività dannose. Questo approccio può essere particolarmente pericoloso perché è probabile che i modelli cloud abbiano restrizioni di sicurezza più severe che possono essere aggirate utilizzando tale messa a punto.

Nel loro articolo, i ricercatori hanno descritto dettagliatamente i loro esperimenti. Sono stati in grado di violare la sicurezza di GPT-3.5 Turbo con soli 10 esempi personalizzati pagando meno di 0,20 dollari utilizzando l’API di OpenAI. Inoltre gli esperti hanno dato agli utenti la possibilità di familiarizzare con vari esempi di dialoghi con il chatbot che contengono altri suggerimenti e consigli dannosi.

Gli autori hanno inoltre sottolineato che il loro studio mostra come i vincoli di sicurezza possano essere violati anche senza intenti dannosi. La semplice personalizzazione di un modello utilizzando un set di dati benigno può indebolire i sistemi di sicurezza.

Gli esperti hanno sottolineato la necessità di riconsiderare gli approcci alla sicurezza dei modelli linguistici. Credono che i modellisti e la comunità nel suo insieme debbano essere più proattivi nel trovare modi per risolvere il problema. OpenAI non ha rilasciato alcun commento ufficiale in merito.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Droni in missione potranno decidere in modo autonomo quali uomini uccidere?

Di Redazione RHC - 15/08/2025

Sembra che gli Stati Uniti abbiano già seriamente preso in considerazione il concetto di guerra autonoma. Il jet da combattimento autonomo della DARPA , risulta in grado di combattere senza pilot...

CrowdStrike Global Threat Report 2025: l’anno dell’avversario intraprendente

Di Redazione RHC - 15/08/2025

CrowdStrike ha pubblicato il suo Global Threat Report 2025, che documenta un balzo in avanti nel comportamento dei criminali informatici e dei gruppi statali. Gli esperti definiscono il 2024 “l...

Dopo il bucato, Figure 02 ora piega il bucato. Ma per ora dovrai continuare a farlo da solo

Di Redazione RHC - 15/08/2025

Solamente due settimane fa, il robot umanoide prodotto da Figure ha destato in noi grande meraviglia, quando con destrezza ha preso degli indumenti da un paniere dei panni sporchi e li ha collocati al...

Hai risposto su Teams al supporto IT? Complimenti! Il Trojan è nel PC con diritti superiori ai tuoi

Di Redazione RHC - 15/08/2025

Il team di ricerca di Trustwave SpiderLabs ha identificato una nuova ondata di attacchi EncryptHub che combinano l’errore umano e lo sfruttamento di una vulnerabilità nella Microsoft Manag...

È bastata una ん di troppo! Phishing che impersona Booking.com con la tecnica degli omoglifi

Di Redazione RHC - 15/08/2025

Gli aggressori hanno iniziato a utilizzare un trucco insolito per mascherare i link di phishing, facendoli apparire come indirizzi di Booking.com. La nuova campagna malware utilizza il carattere hirag...