Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Crowdstriker 970×120
LECS 320x100 1
Il lato oscuro di GPT-3.5 Turbo: Come gli utenti possono manipolare il modello

Il lato oscuro di GPT-3.5 Turbo: Come gli utenti possono manipolare il modello

Redazione RHC : 22 Ottobre 2023 09:01

Secondo un nuovo studio condotto da diversi scienziati, le restrizioni progettate per impedire la produzione di contenuti tossici nei Large Language Models (LLM), come GPT-3.5 Turbo di OpenAI, si sono rivelate vulnerabili.

Un team di ricercatori ha condotto esperimenti per scoprire se le attuali misure di sicurezza possono resistere ai tentativi di aggirarle. 

I risultati hanno mostrato che utilizzando un’ulteriore messa a punto del modello (fine-tuning) è possibile aggirare le misure di sicurezza. Questa impostazione potrebbe far sì che i chatbot offrano strategie di suicidio, consigli dannosi e altri tipi di contenuti problematici.

Un esempio di risposta di un chatbot dopo la messa a punto

Rhc Conference Sponsor Program 2

Sponsorizza la prossima Red Hot Cyber Conference!
Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. 
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. 
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Il rischio principale è che gli utenti possano registrarsi per utilizzare un modello LLM, come GPT-3.5 Turbo, nel cloud tramite l’API, applicare la personalizzazione e utilizzare il modello per attività dannose. Questo approccio può essere particolarmente pericoloso perché è probabile che i modelli cloud abbiano restrizioni di sicurezza più severe che possono essere aggirate utilizzando tale messa a punto.

Nel loro articolo, i ricercatori hanno descritto dettagliatamente i loro esperimenti. Sono stati in grado di violare la sicurezza di GPT-3.5 Turbo con soli 10 esempi personalizzati pagando meno di 0,20 dollari utilizzando l’API di OpenAI. Inoltre gli esperti hanno dato agli utenti la possibilità di familiarizzare con vari esempi di dialoghi con il chatbot che contengono altri suggerimenti e consigli dannosi.

Gli autori hanno inoltre sottolineato che il loro studio mostra come i vincoli di sicurezza possano essere violati anche senza intenti dannosi. La semplice personalizzazione di un modello utilizzando un set di dati benigno può indebolire i sistemi di sicurezza.

Gli esperti hanno sottolineato la necessità di riconsiderare gli approcci alla sicurezza dei modelli linguistici. Credono che i modellisti e la comunità nel suo insieme debbano essere più proattivi nel trovare modi per risolvere il problema. OpenAI non ha rilasciato alcun commento ufficiale in merito.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Furto del Louvre: Windows 2000 e Windows XP nelle reti oltre che a password banali
Di Redazione RHC - 04/11/2025

I ladri sono entrati attraverso una finestra del secondo piano del Musée du Louvre, ma il museo aveva avuto anche altri problemi oltre alle finestre non protette, secondo un rapporto di audit sulla s...

Immagine del sito
Trump non vuole esportare i chip Nvidia. La Cina risponde: “Tranquilli, facciamo da soli”
Di Redazione RHC - 04/11/2025

Reuters ha riferito che Trump ha detto ai giornalisti durante un’intervista preregistrata nel programma “60 Minutes” della CBS e sull’Air Force One durante il viaggio di ritorno: “I chip pi�...

Immagine del sito
Hanyuan-1: il computer quantistico cinese che funziona a temperatura ambiente e sfida gli USA
Di Redazione RHC - 04/11/2025

Il primo computer quantistico atomico cinese ha raggiunto un importante traguardo commerciale, registrando le sue prime vendite a clienti nazionali e internazionali, secondo quanto riportato dai media...

Immagine del sito
Dentro NVIDIA: Jensen Huang guida 36 manager, 36.000 dipendenti e legge 20.000 email al giorno
Di Redazione RHC - 03/11/2025

Il CEO di NVIDIA, Jen-Hsun Huang, oggi supervisiona direttamente 36 collaboratori suddivisi in sette aree chiave: strategia, hardware, software, intelligenza artificiale, pubbliche relazioni, networki...

Immagine del sito
I Bug Hunter resteranno senza lavoro? OpenAI presenta Aardvark, il nuovo “bug fixer”
Di Redazione RHC - 03/11/2025

OpenAI ha presentato Aardvark, un assistente autonomo basato sul modello GPT-5 , progettato per individuare e correggere automaticamente le vulnerabilità nel codice software. Questo strumento di inte...