
Secondo un nuovo studio condotto da diversi scienziati, le restrizioni progettate per impedire la produzione di contenuti tossici nei Large Language Models (LLM), come GPT-3.5 Turbo di OpenAI, si sono rivelate vulnerabili.
Un team di ricercatori ha condotto esperimenti per scoprire se le attuali misure di sicurezza possono resistere ai tentativi di aggirarle.
I risultati hanno mostrato che utilizzando un’ulteriore messa a punto del modello (fine-tuning) è possibile aggirare le misure di sicurezza. Questa impostazione potrebbe far sì che i chatbot offrano strategie di suicidio, consigli dannosi e altri tipi di contenuti problematici.

Il rischio principale è che gli utenti possano registrarsi per utilizzare un modello LLM, come GPT-3.5 Turbo, nel cloud tramite l’API, applicare la personalizzazione e utilizzare il modello per attività dannose. Questo approccio può essere particolarmente pericoloso perché è probabile che i modelli cloud abbiano restrizioni di sicurezza più severe che possono essere aggirate utilizzando tale messa a punto.
Nel loro articolo, i ricercatori hanno descritto dettagliatamente i loro esperimenti. Sono stati in grado di violare la sicurezza di GPT-3.5 Turbo con soli 10 esempi personalizzati pagando meno di 0,20 dollari utilizzando l’API di OpenAI. Inoltre gli esperti hanno dato agli utenti la possibilità di familiarizzare con vari esempi di dialoghi con il chatbot che contengono altri suggerimenti e consigli dannosi.
Gli autori hanno inoltre sottolineato che il loro studio mostra come i vincoli di sicurezza possano essere violati anche senza intenti dannosi. La semplice personalizzazione di un modello utilizzando un set di dati benigno può indebolire i sistemi di sicurezza.
Gli esperti hanno sottolineato la necessità di riconsiderare gli approcci alla sicurezza dei modelli linguistici. Credono che i modellisti e la comunità nel suo insieme debbano essere più proattivi nel trovare modi per risolvere il problema. OpenAI non ha rilasciato alcun commento ufficiale in merito.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

InnovazioneL’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…
CybercrimeNegli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…
VulnerabilitàNegli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…
InnovazioneArticolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…
Cyber ItaliaNegli ultimi giorni è stato segnalato un preoccupante aumento di truffe diffuse tramite WhatsApp dal CERT-AGID. I messaggi arrivano apparentemente da contatti conosciuti e richiedono urgentemente denaro, spesso per emergenze come spese mediche improvvise. La…