Il Test di Turing non basta più! Ora che è stato superato occorrono nuovi criteri di valutazione delle AI

Redazione RHC : 15 Giugno 2024 15:57

Al giorno d’oggi, le interazioni online con l’intelligenza artificiale (AI) non solo sono più frequenti che mai, ma sono anche più invisibili agli utenti. I ricercatori hanno deciso di verificare se le persone potessero distinguere tra l’intelligenza artificiale e gli esseri umani conducendo un esperimento coinvolgendo una persona e tre diversi modelli di intelligenza artificiale.

Il “Test di Turing”, proposto per la prima volta come “gioco di imitazione” dallo scienziato informatico Alan Turing nel 1950, valuta la capacità di una macchina di dimostrare un’intelligenza indistinguibile da quella di un essere umano. Per superare questa prova, la macchina deve convincere il suo interlocutore che si tratta di una persona.

Gli scienziati hanno deciso di replicare questo test chiedendo a 500 partecipanti di chattare con quattro intervistati: un essere umano, il programma ELIZA degli anni ’60 e i modelli GPT-3.5 e GPT-4 , che funzionano su ChatGPT. Ogni conversazione durava cinque minuti, dopodiché i partecipanti dovevano determinare se stavano parlando con un essere umano o con un’intelligenza artificiale.

Distribuisci i nostri corsi di formazione diventando un nostro Affiliato

Se sei un influencer, gestisci una community, un blog, un profilo social o semplicemente hai tanta voglia di diffondere cultura digitale e cybersecurity, questo è il momento perfetto per collaborare con RHC Academy. Unisciti al nostro Affiliate Program: potrai promuovere i nostri corsi online e guadagnare provvigioni ad ogni corso venduto. Fai parte del cambiamento. Diffondi conoscenza, costruisci fiducia, genera valore.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]

Supporta RHC attraverso:

L'acquisto del fumetto sul Cybersecurity Awareness

Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab

Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

ELIZA, è un sistema con risposte pre programmate ma senza modelli linguistici di grandi dimensioni (LLM) o architettura neurale, è stato giudicato essere umano solo il 22% delle volte. GPT-3.5 ha ottenuto il 50%, mentre l’essere umano ha ottenuto il 67%.

Nell Watson, ricercatore di intelligenza artificiale presso l’Institute of Electrical and Electronics Engineers (IEEE), ha osservato: “Le macchine possono creare spiegazioni plausibili, proprio come possono fare gli esseri umani. Possono essere soggette a distorsioni cognitive, ma confuse e manipolate, diventando sempre più ingannevoli. Tutti questi elementi rendono i sistemi di intelligenza artificiale simili agli esseri umani, il che li rende significativamente diversi dagli approcci precedenti con una serie limitata di risposte già pronte”.

Lo studio, che si basa su decenni di sforzi per far sì che l’intelligenza artificiale superi il test di Turing, evidenzia i timori diffusi che i sistemi di intelligenza artificiale ritenuti simili a quelli umani avranno “conseguenze sociali ed economiche diffuse”. Gli scienziati hanno anche notato che esiste una valida critica alla natura semplicistica del Test di Turing, sostenendo che “i fattori stilistici e socio-emotivi giocano un ruolo più importante nel superamento del Test di Turing rispetto alle nozioni tradizionali di intelligenza“. Ciò suggerisce che l’approccio alla ricerca dell’intelligenza artificiale deve essere riconsiderato.

Watson ha aggiunto che la ricerca rappresenta una sfida per il futuro delle interazioni uomo-macchina e che le persone diventeranno sempre più sospettose nei confronti della natura di tali interazioni, soprattutto in questioni delicate. Ha sottolineato che lo studio dimostra come è cambiata l’intelligenza artificiale nell’era del GPT.

“ELIZA è limitata da risposte già pronte, che ne limitavano significativamente le capacità. Può ingannare qualcuno per cinque minuti, ma presto i limiti diventano evidenti“, ha detto. “I modelli linguistici sono incredibilmente flessibili, capaci di sintetizzare risposte in una vasta gamma di argomenti, parlano lingue o dialetti specifici e mostrano personalità e valori distintivi. Si tratta di un enorme miglioramento rispetto a qualsiasi cosa programmata manualmente, non importa con quanta abilità o attenzione venga eseguita”.

I moderni modelli linguistici di intelligenza artificiale come GPT-4 dimostrano una notevole capacità di imitare l’intelligenza e il linguaggio umano, sfidando le nozioni tradizionali di intelligenza artificiale. In un esperimento che riproduceva il test di Turing, GPT-4 è stato riconosciuto come umano il 54% delle volte, superando significativamente le prestazioni dei precedenti sistemi di intelligenza artificiale. Ciò dimostra progressi significativi nello sviluppo dell’intelligenza artificiale e nella sua capacità di generare risposte credibili, flessibili e contestuali paragonabili a quelle umane.

Tuttavia, questo alto grado di somiglianza umana dell’IA solleva anche preoccupazioni sulle possibili conseguenze sociali ed economiche quando le persone non sono in grado di distinguere le interazioni con l’IA da quelle con gli esseri umani. Ciò richiede una revisione degli approcci alla valutazione dell’intelligenza artificiale e lo sviluppo di nuovi criteri e metodi per distinguere tra intelligenza umana e artificiale. In futuro, le persone dovranno essere più attente e critiche quando interagiscono con l’intelligenza artificiale, soprattutto in questioni delicate, per evitare manipolazioni e valutazioni errate.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Da AI white ad AI black il passo è breve. Nuovi strumenti per Script Kiddies bussano alle porte

I ricercatori di Okta hanno notato che aggressori sconosciuti stanno utilizzando lo strumento di intelligenza artificiale generativa v0 di Vercel per creare pagine false che imitano qu...

Se è gratuito, il prodotto sei tu. Google paga 314 milioni di dollari per violazione dei dati agli utenti Android

Google è al centro di un’imponente causa in California che si è conclusa con la decisione di pagare oltre 314 milioni di dollari agli utenti di smartphone Android nello stato. Una giu...

CTF di RHC 2025. Ingegneria sociale in gioco: scopri la quarta “flag” non risolta

La RHC Conference 2025, organizzata da Red Hot Cyber, ha rappresentato un punto di riferimento per la comunità italiana della cybersecurity, offrendo un ricco programma di talk, workshop e compet...

Linux Pwned! Privilege Escalation su SUDO in 5 secondi. HackerHood testa l’exploit CVE-2025-32463

Nella giornata di ieri, Red Hot Cyber ha pubblicato un approfondimento su una grave vulnerabilità scoperta in SUDO (CVE-2025-32463), che consente l’escalation dei privilegi a root in ambie...

Hackers nordcoreani a libro paga. Come le aziende hanno pagato stipendi a specialisti IT nordcoreani

Il Dipartimento di Giustizia degli Stati Uniti ha annunciato la scoperta di un sistema su larga scala in cui falsi specialisti IT provenienti dalla RPDC i quali ottenevano lavoro presso aziende americ...

Il Test di Turing non basta più! Ora che è stato superato occorrono nuovi criteri di valutazione delle AI

Articoli in evidenza

Categorie