Web Scraping e LinkedIn: informazioni d’oro per il cybercrime

19 Luglio 2022 07:00

Ne avevamo parlato a suo tempo del fenomeno del “web scraping” e di quanto possano essere importanti delle informazioni scaricate massivamente dai social network.

Per web scraping, si intende un processo di estrazione automatica di dati o di raccolta informazioni dal World Wide Web. È un campo in via di sviluppo e consiste in un insieme di tecniche che consentono il download di informazioni legittime dalle piattaforme web, l’elaborazione del testo, le comprensione semantica e l’utilizzo delle intelligenze artificiali per riversare il tutto, correttamente e coerentemente organizzato in una base dati.

Dopo la clamorosa pubblicazione di 700 milioni di utenti di Linkedin (la sua base utenti è di 800 milioni) di luglio del 2021, ad Aprile la Corte d’Appello degli Stati Uniti ha stabilito che il suo concorrente hiQ Labs, che aveva raccolto informazioni pubbliche degli utenti di LinkedIn, stava eseguendo una attività legale.

Quindi ne consegue che la raccolta massiva di informazioni pubbliche effettuata (ad esempio) sui social network è legale e può essere fatta da tutti.

Ma queste informazioni contengono un mare di dati che possono essere utilizzati per attacchi mirati ed infatti le underground pullulano di post (alle volte anche rivendendo data leak vecchi) a dei prezzi anche interessanti, contenenti queste informazioni in modo strutturato ed organizzato.

Vendita di 35 milioni di record di LinkedIn sul noto forum underground XSS

Le informazioni che sono state “scrappate” in questo caso dal social sono le seguenti:

Nome
Cognome
email
Link profilo LinkedIn della persona
Link profilo Linkedin dell’azienda
Link al profilo Twitter dell’azienda
Paese di residenza
Lingue parlate

Si tratta in effetti di tutte informazioni pubbliche che sono presenti sui profili Linkedin delle persone o delle aziende.

Ma cosa se ne fanno i criminali informatici di queste informazioni?

Avere tra le mani l’indirizzo email di un amministratore di una azienda Fortune 500 e potergli inviare una mail ben fatta di spear phishing contenente un allegato malevolo, quanto può valere?

Ogni dato divulgato in rete (sia pubblico che privato) costituisce un piccolo pezzo di un puzzle utile per costruire l’identità digitale di una persona. Un pezzo di un puzzle da solo non permette di identificare l’immagine finale, ma tanti pezzi di un puzzle possono farci comprendere la figura rappresentata quale sia, anche se il puzzle non è completamente finito.

Pertanto vedete un singolo pezzo del puzzle come una singola perdita di dati (data leak/data breach) e il numero di telefono o la mail come la chiave di correlazione. Pensate ad avere molti pezzi del puzzle e quindi molti data leak/data breach di informazioni correlabili, come ad esempio un data leak di linkedin, un data breach di un’università, un data breach di un centro diagnostico, un data breach di una regione e altri dati di un’assicurazione e di un operatore telefonico.

Sarebbero molte le informazioni “correlabili” che potrebbero permetterci di ricostruire informazioni private e personali di una persona da utilizzarle per condurre successivi attacchi mirati.

Ecco perché ogni ogni singola fuoriuscita di dati è un danno per tutta la comunità e non solo per il singolo.

Correlando queste informazioni è possibile effettuare frodi telematiche estremamente mirate, pertanto la possibilità che queste informazioni siano usate per profilare utenti per poi eseguire attività di social engineering è molto alta.

Possiamo utilizzare tali dati per la creazione di una casella di posta elettronica o di un account da parte di un’altra persona, fino ad arrivare all’impersonificazione totale a livello digitale di un utente senza dimenticare attacchi si phishing, smishing, sim swap ping e altro ancora.

Ogni pezzo del puzzle è fine a se stesso, ma guardandolo assieme agli altri da un quadro più grande di osservazione che può comportare molti più rischi.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Sandro Sana

Membro del gruppo di Red Hot Cyber Dark Lab e direttore del Red Hot Cyber PodCast. Si occupa d'Information Technology dal 1990 e di Cybersecurity dal 2014 (CEH - CIH - CISSP - CSIRT Manager - CTI Expert), relatore a SMAU 2017 e SMAU 2018, docente SMAU Academy & ITS, membro ISACA. Fa parte del Comitato Scientifico del Competence Center nazionale Cyber 4.0, dove contribuisce all’indirizzo strategico delle attività di ricerca, formazione e innovazione nella cybersecurity.

Aree di competenza: Cyber Threat Intelligence, NIS2, Governance & Compliance della Sicurezza, CSIRT & Crisis Management, Ricerca, Divulgazione e Cultura Cyber

Visita il sito web dell'autore

Articoli in evidenza

Cybercrime

Campagna di phishing su Signal in Europa: sospetto coinvolgimento di attori statali

Bajram Zeqiri - 07/02/2026

Le autorità tedesche hanno recentemente lanciato un avviso riguardante una sofisticata campagna di phishing che prende di mira gli utenti di Signal in Germania e nel resto d’Europa. L’attacco si concentra su profili specifici, tra…

Innovazione

Robot in cerca di carne: Quando l’AI affitta periferiche. Il tuo corpo!

Silvia Felici - 06/02/2026

L’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…

Cybercrime

DKnife: il framework di spionaggio Cinese che manipola le reti

Pietro Melillo - 06/02/2026

Negli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…

Vulnerabilità

Così tante vulnerabilità in n8n tutti in questo momento. Cosa sta succedendo?

Agostino Pellegrino - 06/02/2026

Negli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…

Innovazione

L’IA va in orbita: Qwen 3, Starcloud e l’ascesa del calcolo spaziale

Sergio Corpettini - 06/02/2026

Articolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…