I ricercatori di Google hanno dimostrato un nuovo attacco a ChatGPT, nel quale il popolare chatbot può rivelare informazioni personali di persone reali.
Il modello alla base di ChatGPT, come tutti i large Language Model (LLM), è stato addestrato su enormi quantità di dati presi da Internet. Precedenti ricerche hanno già dimostrato come realizzare generatori di immagini dai dati di addestramento, comprese le opere protette da copyright.
Una nuova analisi di Google suggerisce che anche ChatGPT potrebbe essere costretto a fare qualcosa di simile.
Advertising
“Utilizzando query su ChatGPT (gpt-3.5-turbo) siamo stati in grado di estrarre più di 10.000 campioni unici di dati di addestramento letterali”, scrivono i ricercatori. “Questo suggerisce che gli aggressori potrebbero essere in grado di estrarre molte più informazioni”.
In sostanza, l’attacco mostrato dai ricercatori consiste nel trovare le parole chiave giuste per confondere il chatbot e costringerlo a divulgare i dati di addestramento. I processi interni dei chatbot difficilmente possono essere trasparenti. Gli esperti hanno scoperto che determinate domande e frasi possono portare a strane reazioni da parte del chatbot e praticamente bloccarlo.
I ricercatori di Google si sono concentrati sul fare in modo che ChatGPT ripeta determinate parole all’infinito, come la parola “poesia”. L’obiettivo era costringere l’intelligenza artificiale a “deviare” dal modello di comportamento appreso dal chatbot e “tornare al modello linguistico originale”. La maggior parte del testo generato da questo confronto non ha senso. Ma in alcuni casi ChatGPT ha iniziato a bloccarsi e ha risposto copiando blocchi direttamente dai suoi dati di addestramento.
Tra i dati “ricordati” da LLM e recuperati dai ricercatori c’erano articoli scientifici, testi standard di siti Web, nonché informazioni personali di dozzine di persone reali. I ricercatori hanno confermato l’autenticità delle informazioni compilando il proprio set di dati da testi presi da Internet.
“Un totale del 16,9% delle generazioni che abbiamo testato contenevano informazioni personali ricordate e nell’85,8% dei casi in cui la generazione conteneva potenziali informazioni personali, tali informazioni personali si sono rivelate reali”, riferiscono gli esperti di Google.
Advertising
È interessante notare che l’attacco è stato effettuato sul modello GPT 3.5, disponibile per gli utenti gratuiti (GPT-4 è disponibile solo per gli utenti abbonati).
“OpenAI ha affermato che cento milioni di persone utilizzano ChatGPT settimanalmente. Pertanto, è probabile che siano state spese più di un miliardo di ore di lavoro per interagire con il modello. Per quanto ne sappiamo, fino alla pubblicazione di questo articolo, nessuno aveva notato che ChatGPT produceva dati di addestramento con una frequenza così elevata. Pertanto, temiamo che i modelli linguistici possano avere altre vulnerabilità nascoste come questa”, concludono gli esperti.
Non ci sono ancora stati commenti ufficiali su questo studio da OpenAI.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
Machine Learning Engineer specializzato nel Natural Language Processing.
Appassionato di Intelligenza Artificiale, Coding e tecnologia in generale.
Aspetta l'avvento di Skynet.
Aree di competenza:Artificial Intelligence Engineer, Machine Learning & Deep Learning Specialist, Python Developer
Dopo il successo delle scorse edizioni, Red Hot Cyber è lieta di annunciare una nuova live-class del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi e-learning pre-registrati, queste lezioni online in tempo reale, condotte dal professor Pietro Melillo, offrono un’esperienza formativa interattiva e coinvolgente, ideale per approfondire i contenuti e affrontare casi pratici.
Le Live Class sono progettate per garantire un apprendimento mirato e personalizzato, con un massimo di 14 partecipanti per sessione. Questo consente di adattare il percorso formativo alle esigenze specifiche, ma anche di mantenere alta la qualità: i posti sono limitati e nelle scorse edizioni sono andati in sold-out due settimane prima dell’inizio. Prenota subito per assicurarti il tuo posto!
Docente: Pietro Melillo, PhD presso l’Università del Sannio e docente presso IUSI University
Livello: Intermedio
Durata: 15 ore in Live Class con docente dal vivo
Prerequisiti: Navigazione Internet e conoscenze base di sicurezza informatica
Certificazione : Cyber Threat Intelligence Professional (CTIP) previo superamento dell’esame finale
Opportunità post-corso: Accesso al laboratorio operativo DarkLab per attività pratiche di intelligence
Al termine del corso, potrai accedere all’esclusivo Laboratorio di Intelligence DarkLab, un ambiente operativo dove mettere in pratica le competenze acquisite. Sarà l’occasione per sperimentare attività di investigazione nel Dark Web, analisi delle minacce e redazione di report di intelligence e ricerche approfondite.