Secondo un nuovo studio condotto da diversi scienziati, le restrizioni progettate per impedire la produzione di contenuti tossici nei Large Language Models (LLM), come GPT-3.5 Turbo di OpenAI, si sono rivelate vulnerabili.
Un team di ricercatori ha condotto esperimenti per scoprire se le attuali misure di sicurezza possono resistere ai tentativi di aggirarle.
I risultati hanno mostrato che utilizzando un’ulteriore messa a punto del modello (fine-tuning) è possibile aggirare le misure di sicurezza. Questa impostazione potrebbe far sì che i chatbot offrano strategie di suicidio, consigli dannosi e altri tipi di contenuti problematici.
Advertising
Un esempio di risposta di un chatbot dopo la messa a punto
Il rischio principale è che gli utenti possano registrarsi per utilizzare un modello LLM, come GPT-3.5 Turbo, nel cloud tramite l’API, applicare la personalizzazione e utilizzare il modello per attività dannose. Questo approccio può essere particolarmente pericoloso perché è probabile che i modelli cloud abbiano restrizioni di sicurezza più severe che possono essere aggirate utilizzando tale messa a punto.
Nel loro articolo, i ricercatori hanno descritto dettagliatamente i loro esperimenti. Sono stati in grado di violare la sicurezza di GPT-3.5 Turbo con soli 10 esempi personalizzati pagando meno di 0,20 dollari utilizzando l’API di OpenAI. Inoltre gli esperti hanno dato agli utenti la possibilità di familiarizzare con vari esempi di dialoghi con il chatbot che contengono altri suggerimenti e consigli dannosi.
Gli autori hanno inoltre sottolineato che il loro studio mostra come i vincoli di sicurezza possano essere violati anche senza intenti dannosi. La semplice personalizzazione di un modello utilizzando un set di dati benigno può indebolire i sistemi di sicurezza.
Gli esperti hanno sottolineato la necessità di riconsiderare gli approcci alla sicurezza dei modelli linguistici. Credono che i modellisti e la comunità nel suo insieme debbano essere più proattivi nel trovare modi per risolvere il problema. OpenAI non ha rilasciato alcun commento ufficiale in merito.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella.
Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.
Ritorna lunedì 18 e martedì 19 maggio la Red Hot Cyber Conference 2026, l’evento gratuito creato dalla community di Red Hot Cyber, che si terrà a Roma in Via Bari 18, presso il Teatro Italia. L’iniziativa è pensata per promuovere la cultura della sicurezza informatica, dell’innovazione digitale e della consapevolezza del rischio cyber. Rappresenta un punto di incontro tra professionisti, studenti, aziende e appassionati del settore, offrendo contenuti tecnici, workshop e momenti di confronto ad alto valore formativo.
L’edizione 2026 si svolgerà a Roma nelle giornate del 18 e 19 maggio presso il Teatro Italia e includerà attività formative, sessioni pratiche e la tradizionale Capture The Flag. L’evento è completamente gratuito, ma la partecipazione è subordinata a registrazione obbligatoria tramite i canali ufficiali, al fine di garantire una corretta organizzazione e gestione degli accessi.
Le iscrizioni saranno disponibili a partire dal 16 marzo 2026 attraverso la piattaforma Eventbrite, dove sarà possibile registrarsi ai diversi percorsi dell’evento: workshop, conferenza principale e competizione CTF. I link ufficiali di registrazione saranno pubblicati sui canali di Red Hot Cyber e costituiranno l’unico punto valido per la prenotazione dei posti all’evento.