Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Puoi riconoscere un tema scritto da un LLM? Alla scoperta della competizione del Learning Agency Lab

Francesco Conti : 17 Novembre 2023 08:02

L’Intelligenza Artificiale (IA) generativa ha raggiunto capacità straordinarie nella creazione di testi e immagini, al tal punto da rendere difficile per un umano capire se un contenuto sia stato prodotto da un modello generativo. A conferma di ciò, nel nostro recente articolo abbiamo parlato di quanto ChatGPT sia vicino al superamento del test di Turing.

Per questo motivo la Learning Agency Lab ha lanciato su Kaggle, la piattaforma di competizioni online dedicata alla data science, una sfida entusiasmante (e con ricchi premi!): sei in grado di sviluppare un modello di IA in grado di determinare se un tema scolastico è stato scritto da un LLM (Large Language Model) o da uno studente? Questa competizione non solo sollecita le menti più brillanti nel campo del NLP, ma pone anche domande cruciali su quanto sia cambiato il mondo dell’educazione con l’avvento dei LLMs.

In questo articolo, esploreremo l’universo delle competizioni su Kaggle, analizzando l’importanza di questa sfida nel panorama attuale, discutendo le implicazioni che sorgono quando la linea tra il lavoro umano e quello generato da macchine diventa sempre più sottile.

Kaggle: gli esperti di IA si sfidano

Kaggle è una piattaforma online che ospita competizioni di data science, fornisce dataset e risorse per l’apprendimento automatico, e offre uno spazio in cui i professionisti del settore possono collaborare e condividere conoscenze. La piattaforma, fondata nel 2010, è diventata velocemente popolare tra ricercatori e professionisti del machine learning, tanto da essere acquisita da Google nel 2017.


Scarica Gratuitamente Byte The Silence, il fumetto sul Cyberbullismo di Red Hot Cyber

«Il cyberbullismo è una delle minacce più insidiose e silenziose che colpiscono i nostri ragazzi. Non si tratta di semplici "bravate online", ma di veri e propri atti di violenza digitale, capaci di lasciare ferite profonde e spesso irreversibili nell’animo delle vittime. Non possiamo più permetterci di chiudere gli occhi». Così si apre la prefazione del fumetto di Massimiliano Brolli, fondatore di Red Hot Cyber, un’opera che affronta con sensibilità e realismo uno dei temi più urgenti della nostra epoca. Distribuito gratuitamente, questo fumetto nasce con l'obiettivo di sensibilizzare e informare. È uno strumento pensato per scuole, insegnanti, genitori e vittime, ma anche per chi, per qualsiasi ragione, si è ritrovato nel ruolo del bullo, affinché possa comprendere, riflettere e cambiare. Con la speranza che venga letto, condiviso e discusso, Red Hot Cyber è orgogliosa di offrire un contributo concreto per costruire una cultura digitale più consapevole, empatica e sicura.

Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]



Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


Le competizioni su Kaggle abbracciano una vasta gamma di sfide, dalle previsioni più semplici a problemi di Computer Vision e persino a compiti complessi legati alla comprensione di aspetti biologici. Partecipare a queste competizioni permette agli utenti di affinare le proprie abilità nella data science e di confrontarsi con problemi del mondo reale.

Il dataset “Titanic – Machine Learning from Disaster” è uno dei più famosi e utilizzati sulla piattaforma e nella data science. Questo dataset contiene informazioni sui passeggeri a bordo del famoso RMS Titanic, il transatlantico che affondò durante il suo viaggio inaugurale nel 1912. L’obiettivo quando si lavora con questo dataset è predire se un passeggero è sopravvissuto o meno in base alle altre informazioni disponibili (genere, età, costo del biglietto). Questo dataset è spesso utilizzato per scopi educativi e dimostrativi in corsi e tutorial di data science. Kaggle ospita competizioni basate su questo dataset, incoraggiando la community a sviluppare modelli predittivi accurati.

Le competizioni più famose

Tra le competizioni più ricche e famose recentemente ospitate sulla piattarma troviamo:

  • Vesuvius Challenge con premi da oltre $1.000.000. Questa competizione riguarda migliaia di pergamene conservate in una biblioteca in una villa romana ad Ercolano sepolta dall’eruzione del Vesuvio. A causa dell’estremo calore, le pergamene sono carbonizzate e, attualmente, aprirle senza danneggiarle risulta impossibile. Questi manufatti furono scoperti diversi secoli fa e sono tuttora indecifrate. La sfida consiste nel creare un modello di IA in grado di rilevare l’inchiostro dalle scansioni tridimensionali a raggi X e, successivamente, interpretarne il contenuto.
  • Google – Isolated Sign Language Recognition, con montepremi di 100.000$. La sfida riguarda la classificazione di segni isolati nel linguaggio dei segni americano. L’obiettivo è identificare i segni a partire da video, al fine di supportare lo sviluppo di app per insegnare ai genitori di bambini non udenti il linguaggio dei segni.

La sfida: il tema è farina del tuo sacco?

“Puoi aiutare a costruire un modello per identificare quale tema è stato scritto da studenti delle scuole medie e superiori e quale è stato scritto utilizzando un LLM?”. Questo è il punto della sfida lanciata dalla Learning Agency Lab, un’organizzazione no-profit indipendente. L’organizzazione è impegnata nel mondo dell’istruzione, con attività riguardanti il miglioramento dei processi educativi, anche attraverso l’uso della tecnologia.

La Learning Agency Lab è attenta a quanto le tecnologie generative stiano cambiando il mondo dell’istruzione. Gli educatori sono preoccupati per l’impatto che questi strumenti possono avere sulle competenze sviluppate in età scolastica. Gli studenti hanno iniziato ad utilizzare i LLM per generare saggi che non sono di loro proprietà, perdendo importanti elementi chiave di apprendimento. La competizione nasce proprio da questa esigenza, il suo scopo è contribuire a identificare gli artefatti distintivi dei LLMs e far progredire lo stato dell’arte nella rilevazione del testo generato da IA. Il dataset comprende circa 10.000 saggi, alcuni scritti da studenti e altri generati da una varietà di LLMs. I testi a disposizione mirano a replicare scenari tipici di rilevamento, con lunghezze e argomenti simili a compiti reali.

Grazie a una importante sponsorizzazione della Bill & Melinda Gates Foundation, la competizione assicura ricchi premi per le migliori soluzioni in termini di accuratezza ed efficienza (costo computazionale).

I premi per i vincitori della competizione

Conclusioni

Le competizioni sono molto importanti nella community nel Machine Learning, sono spesso legate allo sviluppo di software open-source e permettono di sviluppare competenze tecniche. La competizioni lanciata da Learning Agency Lab conferma una attenzione sulla capacità di distinguere tra testi scritti da umani e generati da IA. Questo tipo di preoccupazione è trasversale su altri settori, come quello dell’informazione online e dei social-networks.

Francesco Conti
Ingegnere delle telecomunicazioni specializzato in machine learning e intelligenza artificiale. Applica le sue competenze nel campo della cyber security per automatizzare operazioni noiose e ripetitive!

Lista degli articoli

Articoli in evidenza

L’IA ha fame di Energia! Al via HyperGrid, il più grande complesso nucleare privato
Di Redazione RHC - 03/08/2025

Fermi America ha firmato un memorandum d’intesa con Hyundai Engineering & Construction (Hyundai E&C) per progettare e costruire la parte nucleare di un progetto infrastrutturale energet...

Arrestato un medico torinese per produzione di materiale pedopornografico
Di Redazione RHC - 03/08/2025

La Polizia di Stato, in esecuzione di ordinanza di custodia cautelare emessa dal GIP di Torino, ha proceduto all’arresto di un quarantenne medico torinese indagato per produzione di contenuti m...

Vibe Coding fuori controllo. L’IA Genera codice vulnerabile, ma tutti se ne fregano
Di Redazione RHC - 02/08/2025

L’intelligenza artificiale sta diventando sempre più un assistente per i programmatori, ma uno studio di Veracode ha dimostrato che la praticità comporta un rischio per la sicurezza. ...

Exploit RCE 0day/0click su iOS in vendita. Scopriamo il mercato delle armi cibernetiche per lo spionaggio
Di Redazione RHC - 01/08/2025

Un annuncio apparso su un forum online, datato 26 luglio 2025, ha catturato la nostra attenzione: un utente di nome “Bucad” pubblicizza la vendita di un “iOS RCE Exploit 0day | Ze...

Lovense scrive a Red Hot Cyber. Il CEO manda dei chiarimenti sulle vulnerabilità sicurezza
Di Redazione RHC - 01/08/2025

In relazione al nostro precedente articolo relativo ai bug di sicurezza rilevati sui dispositivi Lovesense (azienda leader leader nel settore dei dispositivi tecnologici per l’intimità), l...