Cos'è il Web Scraping? Comprendiamolo meglio
Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Banner Ancharia Desktop 1 1
Banner Mobile
Cos’è il Web Scraping? Comprendiamolo meglio

Cos’è il Web Scraping? Comprendiamolo meglio

Redazione RHC : 9 Luglio 2021 08:00

Spesso abbiamo parlato di grandissimi database di utenti venduti nei forum underground e abbiamo detto che si trattava di web scraping.

Ad aprile del 2021 facebook ha perso 533 milioni di utenti, mentre a giugno 2021, LinkedIn ha perso 700 milioni di utenti, praticamente tutta la sua base utente che di fatto ammonta ad oggi a 756 milioni di utenti.


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Subito dopo LinkedIn ha precisato:

“I nostri team hanno indagato su una serie di presunti dati di LinkedIn che sono stati messi in vendita. Vogliamo essere chiari sul fatto che questa non è una violazione dei dati e che nessun dato privato dei membri di LinkedIn è stato esposto” .

Ma allora, se è tutto è regolare e non c’è stata alcuna violazione, le persone giustamente si domandano: da dove provengono tutte queste informazioni? Qualcuno ha scoperto una falla ad un database, ad una web API dalla quale un malintenzionato ha estratto milioni di profili utente?

Sono domande più che lecite, ma per inquadrare meglio il fenomeno e trarre le giuste conclusioni, dobbiamo iniziare a comprendere cosa è il web-scraping, cosa che faremo con questo articolo.

Cosa’è il web scraping

Per web scraping, si intende un processo di estrazione automatica di dati o di raccolta informazioni dal World Wide Web. È un campo in via di sviluppo e consiste in un insieme di tecniche che consentono il download di informazioni legittime dalle piattaforme web, l’elaborazione del testo, le comprensione semantica e l’utilizzo delle intelligenze artificiali per riversare il tutto, correttamente e coerentemente organizzato in una base dati.

Di fatto non si discosta molto da quello che fanno i motori di ricerca costantemente con le loro attività di “crawling”, eseguendo i download delle pagine, analizzandole e classificandole attraverso evoluti algoritmi di intelligenza artificiale all’interno dei loro immensi database distribuiti.

Per “crawling” si intende il processo attuato dai grossi motori di ricerca, quando inviano i propri crawler (come Googlebot) in rete per indicizzare i contenuti web. Lo scraping, invece, è un’attività strutturata per estrarre dati mirati da un determinato sito web.

Le attività di web scrapig vengono svolte per indagini statistiche, ai fini di marketing e per acquisire vantaggi competitivi, in quanto le aziende possono conoscere con un buon anticipo le strategie dei rispettivi concorrenti.

Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping, come ad esempio rilevare e impedire ai bot la visualizzazione delle loro pagine.

Utilizzi Illeciti

Come in tutte le cose, in particolare su internet, esistono attività svolte per fini leciti e quelle svolte per fini illeciti e il web data scraping non è da meno. L’utilizzo in questo caso viene fatto per la creazione di interi database di informazioni utilizzati per scopi commerciali, oppure la creazione di immense banche dati di profili utente, classificati, indicizzati e categorizzati.

Questo generalmente avviene sui social network, dove di fatto la maggior parte delle persone riveste informazioni sulla loro vita privata, comprese informazioni sensibili come indirizzi, numeri di telefono, lavoro e molto altro ancora.

Come abbiamo visto, per scraping si intende effettuare un download massivo di pagine web da un determinato sito e questo può essere fatto manualmente (di fatto impossibile), ma tale attività può essere replicata attraverso dei “bot” mirati costruiti ad arte, per scaricare informazioni pubbliche dai profili per poi organizzarli in modo da poterli ricercare agilmente all’interno di una base dati.

Correlazione di dati

Come abbiamo visto in precedenza in diversi articoli (ad esempio nell’articolo “ogni data leak è un problema di tutti”), tali informazioni possono essere “arricchite” utilizzando le famose collection di databreach precedenti, e quindi correlandoli tra loro per generare una precisa “impronta” di una determinata identità.

Come detto, ci sono informazioni di una persona che non cambiano con molta facilità e quindi un dataleak/databreach anche vecchio di 5 anni, è una fonte preziosissima di informazioni e di correlazioni. Ad esempio, chi cambia il numero di telefono, della abitazione o della email ogni 5 anni?

Non è infatti raro trovare in vendita dati frutto di website scraping arricchiti con altri data leak o databreach. Tutto questo serve per avere maggiori informazioni di una persona per poi poterla attaccare attraverso attività mirate di phishing, si SIM Swap, di furto di credenziali e molto altro ancora. E siccome il cybercrime premia la velocità e il basso costo, avere tra le mani una raccolta vasta di informazioni su determinati gruppi di utenti, è una cosa altamente interessante.

Come proteggerci dal web scraping

Non esiste di fatto protezione dal web scraping.

La cosa importante che occorre capire è che quando si pubblicano informazioni online, li rimangono per sempre e in verità, chiunque capiti su quella determinata pagina web le potrà leggere, scaricarle, archiviarle e analizzarle.

L’unico modo per fermare il web scraping è evitare di inserire contenuti in un sito web, su un social network ed eliminare la fuoriuscita di informazioni (profili pubblici) al di fuori dei propri collegamenti.

L’impiego di una soluzione avanzata di gestione dei bot, tuttavia, può aiutare i siti Web a bloccare quasi del tutto l’accesso agli scraper, anche se in realtà non è poi così semplice.

  • #cybercrime
  • #databreach
  • #sicurezza informatica
  • data leak
  • estrazione dati
  • furto di credenziali
  • informazioni sensibili
  • phishing
  • Protezione dati
  • protezione online
  • sicurezza online
  • violazioni dati
  • web scraping
Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
MITRE pubblica la lista delle TOP25 debolezze software più pericolose del 2025
Di Redazione RHC - 13/12/2025

Il MITRE ha reso pubblica la classifica delle 25 più pericolose debolezze software previste per il 2025, secondo i dati raccolti attraverso le vulnerabilità del national Vulnerability Database. Tali...

Immagine del sito
Il Day-One del Caos di React2Shell! Spie, criminali e cryptominer si contendono i server
Di Redazione RHC - 13/12/2025

Un recente resoconto del gruppo Google Threat Intelligence (GTIG) illustra gli esiti disordinati della diffusione di informazioni, mettendo in luce come gli avversari più esperti abbiano già preso p...

Immagine del sito
Agenzia delle Entrate: accesso admin in vendita a 500$? Ecco perché i conti non tornano
Di Vincenzo Miccoli - 13/12/2025

All’interno del noto Dark Forum, l’utente identificato come “espansive” ha messo in vendita quello che descrive come l’accesso al pannello di amministrazione dell’Agenzia delle Entrate. Tu...

Immagine del sito
Apple aggiorna due bug 0day critici in iOS, presumibilmente abusati dagli spyware
Di Redazione RHC - 13/12/2025

In seguito alla scoperta di due vulnerabilità zero-day estremamente critiche nel motore del browser WebKit, Apple ha pubblicato urgentemente degli aggiornamenti di sicurezza per gli utenti di iPhone ...

Immagine del sito
Esce Kali Linux 2025.4! Miglioramenti e Novità nella Distribuzione per la Sicurezza Informatica
Di Redazione RHC - 12/12/2025

La recente edizione 2025.4 di Kali Linux è stata messa a disposizione del pubblico, introducendo significative migliorie per quanto riguarda gli ambienti desktop GNOME, KDE e Xfce. D’ora in poi, Wa...