
Secondo un nuovo studio condotto da diversi scienziati, le restrizioni progettate per impedire la produzione di contenuti tossici nei Large Language Models (LLM), come GPT-3.5 Turbo di OpenAI, si sono rivelate vulnerabili.
Un team di ricercatori ha condotto esperimenti per scoprire se le attuali misure di sicurezza possono resistere ai tentativi di aggirarle.
I risultati hanno mostrato che utilizzando un’ulteriore messa a punto del modello (fine-tuning) è possibile aggirare le misure di sicurezza. Questa impostazione potrebbe far sì che i chatbot offrano strategie di suicidio, consigli dannosi e altri tipi di contenuti problematici.

Christmas Sale -40% 𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀
Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Il rischio principale è che gli utenti possano registrarsi per utilizzare un modello LLM, come GPT-3.5 Turbo, nel cloud tramite l’API, applicare la personalizzazione e utilizzare il modello per attività dannose. Questo approccio può essere particolarmente pericoloso perché è probabile che i modelli cloud abbiano restrizioni di sicurezza più severe che possono essere aggirate utilizzando tale messa a punto.
Nel loro articolo, i ricercatori hanno descritto dettagliatamente i loro esperimenti. Sono stati in grado di violare la sicurezza di GPT-3.5 Turbo con soli 10 esempi personalizzati pagando meno di 0,20 dollari utilizzando l’API di OpenAI. Inoltre gli esperti hanno dato agli utenti la possibilità di familiarizzare con vari esempi di dialoghi con il chatbot che contengono altri suggerimenti e consigli dannosi.
Gli autori hanno inoltre sottolineato che il loro studio mostra come i vincoli di sicurezza possano essere violati anche senza intenti dannosi. La semplice personalizzazione di un modello utilizzando un set di dati benigno può indebolire i sistemi di sicurezza.
Gli esperti hanno sottolineato la necessità di riconsiderare gli approcci alla sicurezza dei modelli linguistici. Credono che i modellisti e la comunità nel suo insieme debbano essere più proattivi nel trovare modi per risolvere il problema. OpenAI non ha rilasciato alcun commento ufficiale in merito.
Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.


Solo un anno fa, i medici non potevano dire con certezza se KJ Muldoon sarebbe sopravvissuto al suo primo anno di vita. Oggi sta muovendo i primi passi a casa, con la sua famiglia al suo fianco. Quest...

Una nuova vulnerabilità nei componenti FreeBSD responsabili della configurazione IPv6 consente l’esecuzione remota di codice arbitrario su un dispositivo situato sulla stessa rete locale dell’agg...

Dopo aver approfondito i delicati equilibri che vincolano gli operatori di Cyber Threat Intelligence(CTI) tra il GDPR e il rischio di Ricettazione, è fondamentale rivolgere l’attenzione a chiunque,...

Il mondo della tecnologia è un vero e proprio campo di battaglia, dove i geni del coding sfidano ogni giorno i malintenzionati a colpi di exploit e patch di sicurezza. Ecco perché la recente scopert...

Questa notizia ci arriva dal feed News & Research di Recorded Future (Insikt Group): Check Point Research ha documentato una nuova ondata di attività attribuita al threat actor China-linked Ink D...