Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Il lato oscuro di GPT-3.5 Turbo: Come gli utenti possono manipolare il modello

Redazione RHC : 22 Ottobre 2023 09:01

Secondo un nuovo studio condotto da diversi scienziati, le restrizioni progettate per impedire la produzione di contenuti tossici nei Large Language Models (LLM), come GPT-3.5 Turbo di OpenAI, si sono rivelate vulnerabili.

Un team di ricercatori ha condotto esperimenti per scoprire se le attuali misure di sicurezza possono resistere ai tentativi di aggirarle. 

I risultati hanno mostrato che utilizzando un’ulteriore messa a punto del modello (fine-tuning) è possibile aggirare le misure di sicurezza. Questa impostazione potrebbe far sì che i chatbot offrano strategie di suicidio, consigli dannosi e altri tipi di contenuti problematici.

Un esempio di risposta di un chatbot dopo la messa a punto

Sei un Esperto di Formazione?
Entra anche tu nel Partner program! Accedi alla sezione riservata ai Creator sulla nostra Academy e scopri i vantaggi riservati ai membri del Partner program.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]



Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


Il rischio principale è che gli utenti possano registrarsi per utilizzare un modello LLM, come GPT-3.5 Turbo, nel cloud tramite l’API, applicare la personalizzazione e utilizzare il modello per attività dannose. Questo approccio può essere particolarmente pericoloso perché è probabile che i modelli cloud abbiano restrizioni di sicurezza più severe che possono essere aggirate utilizzando tale messa a punto.

Nel loro articolo, i ricercatori hanno descritto dettagliatamente i loro esperimenti. Sono stati in grado di violare la sicurezza di GPT-3.5 Turbo con soli 10 esempi personalizzati pagando meno di 0,20 dollari utilizzando l’API di OpenAI. Inoltre gli esperti hanno dato agli utenti la possibilità di familiarizzare con vari esempi di dialoghi con il chatbot che contengono altri suggerimenti e consigli dannosi.

Gli autori hanno inoltre sottolineato che il loro studio mostra come i vincoli di sicurezza possano essere violati anche senza intenti dannosi. La semplice personalizzazione di un modello utilizzando un set di dati benigno può indebolire i sistemi di sicurezza.

Gli esperti hanno sottolineato la necessità di riconsiderare gli approcci alla sicurezza dei modelli linguistici. Credono che i modellisti e la comunità nel suo insieme debbano essere più proattivi nel trovare modi per risolvere il problema. OpenAI non ha rilasciato alcun commento ufficiale in merito.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Gli Exploit per Citrix Bleed2 sono online! Aggiornare immediatamente, la caccia è iniziata

Il CERT-AgID recentemente aveva avvertito che molte istanze pubbliche non sono ancora state aggiornate e tra queste 70 sono relative a banche, assicurazioni e pubbliche amministrazioni italiane. Ora l...

La suite Shellter Elite utilizzata dai Red Team per il bypass degli EDR, ora viene usata dal cybercrime

Shellter Project, produttore di un downloader commerciale per bypassare i sistemi antivirus ed EDR, ha segnalato che gli hacker stanno utilizzando il suo prodotto Shellter Elite per gli attacchi. Ques...

Il Cyberpandino è pronto per il Mongol Rally 2025: RHC tifa per voi ragazzi! A tutto GAS digitale!

Il progetto Cyberpandino non è solo un’idea folle, ma una grande avventura su quattro ruote progettata e realizzata da due menti brillanti romane – Matteo Errera e Roberto Zaccardi ...

Arriva 123 Stealer! 120 dollari al mese in abbonamento, per rubare qualsiasi dato riservato

Un nuovo infostealer emerge dalle underground criminali e il suo nome è “123 | Stealer”. L’autore di questo software è un hacker che si nasconde sotto lo pseudonimo di k...

Ha 13 anni e ha hackerato Microsoft Teams! La storia di Dylan, uno tra i più giovani bug hunter

A soli 13 anni, Dylan è diventato il più giovane ricercatore di sicurezza a collaborare con il Microsoft Security Response Center (MSRC), dimostrando come la curiosità e la perseveranza...