Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
970x20 Itcentric
TM RedHotCyber 320x100 042514
Google pubblica accidentalmente informazioni sugli algoritmi di indicizzazione del motore di ricerca

Google pubblica accidentalmente informazioni sugli algoritmi di indicizzazione del motore di ricerca

Redazione RHC : 31 Maggio 2024 09:10

È stata pubblicata online una selezione di documenti interni di Google contenente più di 2.500 pagine . A quanto pare, la fuga di notizie si è verificata accidentalmente nel marzo di quest’anno. I documenti descrivono in dettaglio come funziona il motore di ricerca di Google.

Sembra che la documentazione sia stata erroneamente pubblicata in un repository pubblico su GitHub di Google. La fuga di notizie si è verificata il 13 marzo 2024 e i dati sono stati divulgati dallo strumento automatizzato dell’azienda, che ha accidentalmente fornito un commit con la licenza open source Apache 2.0, che è lo standard di Google per la documentazione pubblica. Un successivo commit il 7 maggio 2024 ha tentato di correggere questa perdita.

Tuttavia, a questo punto, la pubblicazione era già stata notata da Erfan Azimi, il capo della società EA Digital Eagle, specializzata in ottimizzazione dei motori di ricerca (SEO), e dopo di lui la fuga di notizie è stata notata dal capo di SparkToro Rand Fishkin e dal capo di iPullRank Michael King, che ha pubblicizzato l’incidente ( 1 , 2 ) e ha studiato la fuga di notizie.


Cve Enrichment Redhotcyber

CVE Enrichment
Mentre la finestra tra divulgazione pubblica di una vulnerabilità e sfruttamento si riduce sempre di più, Red Hot Cyber ha lanciato un servizio pensato per supportare professionisti IT, analisti della sicurezza, aziende e pentester: un sistema di monitoraggio gratuito che mostra le vulnerabilità critiche pubblicate negli ultimi 3 giorni dal database NVD degli Stati Uniti e l'accesso ai loro exploit su GitHub.

Cosa trovi nel servizio:
✅ Visualizzazione immediata delle CVE con filtri per gravità e vendor.
✅ Pagine dedicate per ogni CVE con arricchimento dati (NIST, EPSS, percentile di rischio, stato di sfruttamento CISA KEV).
✅ Link ad articoli di approfondimento ed exploit correlati su GitHub, per ottenere un quadro completo della minaccia.
✅ Funzione di ricerca: inserisci un codice CVE e accedi subito a insight completi e contestualizzati.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Come spiegano i ricercatori, la documentazione trapelata descrive la vecchia versione dell’API Google Search Content Warehouse e dà un’idea della struttura interna della ricerca di Google.

Non c’è codice nella documentazione, descrive solo come lavorare con l’API, che sembra essere solo per uso interno. I documenti contengono anche molti riferimenti ai sistemi e ai progetti interni di Google. E sebbene una simile Google Cloud API sia già disponibile pubblicamente, le informazioni pubblicate su GitHub contengono dettagli molto più interessanti.

Secondo gli analisti i file fanno luce su quali criteri specifici Google considera importanti nel posizionamento delle pagine web. Questa domanda è il Graal per i SEO e i proprietari di siti web che sperano che Google li aiuti ad attirare più traffico.

Nelle 2.500 pagine sono presenti informazioni dettagliate su oltre 14.000 attributi disponibili o associati all’API, ma poche informazioni su come vengono utilizzati esattamente questi segnali o quale sia la loro importanza. Pertanto, è difficile dire quanto peso Google dia ai vari attributi nel suo algoritmo di classificazione dei risultati di ricerca.

Gli esperti SEO sono tuttavia convinti che i documenti contengano dettagli degni di nota e che le informazioni differiscano notevolmente dalle dichiarazioni pubbliche dei rappresentanti di Google.

“Molte delle dichiarazioni contraddicono direttamente le dichiarazioni pubbliche fatte dai rappresentanti di Google nel corso degli anni. In particolare, l’azienda ha ripetutamente negato di utilizzare segnali relativi ai clic, che i sottodomini vengano presi in considerazione separatamente nel ranking, che esista una sandbox per i nuovi siti, che l’età del dominio venga registrata o presa in considerazione e molto altro ancora. , molto di più”, afferma Fishkin nel suo rapporto.

A sua volta, King fa riferimento a una dichiarazione del portavoce del motore di ricerca di Google, John Mueller, che in precedenza aveva affermato che la società “non ha nulla di simile a un indice dell’autorità del sito”. Ciò si riferisce al fatto se un particolare sito è considerato autorevole da Google e quindi degno di posizionarsi più in alto nei risultati di ricerca.

King scrive che i documenti trapelati indicano che i segnali di qualità compressi potrebbero essere in grado di calcolare una metrica di siteAuthority.

Gli esperti hanno scoperto anche molti altri fatti interessanti. Uno di questi riguarda l’importanza dei clic e i diversi tipi di clic (buoni, cattivi, lunghi, ecc.) nel posizionamento delle pagine web. Così, durante l’esame del caso antitrust statunitense contro Google, i rappresentanti dell’azienda hanno ammesso di prendere in considerazione il parametro del click-through come fattore di ranking nella ricerca, e i documenti hanno fornito maggiori dettagli su questi sistemi.

Inoltre, risulta che il numero di visualizzazioni dei siti in Chrome viene utilizzato per determinare la qualità delle risorse, che si riflette nell’API come parametro ChromeInTotal. Ma allo stesso tempo, i rappresentanti di Google hanno ripetutamente affermato di non utilizzare affatto i dati di Chrome per classificare le pagine.

Inoltre, Chrome è menzionato nella sezione relativa alla creazione di sitelink.

Dai documenti è inoltre emerso che Google tiene conto anche di altri fattori, come la freschezza del contenuto, la sua paternità, il rapporto della pagina con il tema principale del sito, la corrispondenza tra il titolo e il contenuto della pagina e ladimensione media ponderata del carattere”.

Ciò contraddice la precedente dichiarazione dell’azienda secondo cui il posizionamento nei risultati di ricerca non utilizza il punteggio EEAT (esperienza, competenza, autorevolezza, affidabilità) che Google utilizza per valutare la qualità dei risultati.

Ad esempio, King spiega che Google raccoglie i dati dell’autore dalle pagine e dispone di un campo speciale per indicare se un particolare argomento è l’autore. Parte dei documenti afferma che questo campo è “progettato e configurato principalmente per articoli di notizie, ma è popolato anche per altri contenuti (come pubblicazioni scientifiche)”. Sebbene ciò non confermi che la paternità sia una metrica di classificazione separata, mostra che Google sta almeno monitorando questo attributo.

Dopo che la documentazione ha attirato l’attenzione dei media e degli esperti, i rappresentanti di Google sono stati costretti a rilasciare una dichiarazione in cui hanno confermato il fatto della fuga di notizie e hanno osservato che va ricordato che nei file rilasciati accidentalmente potrebbe mancare un contesto importante.

“Vorremmo mettervi in ​​guardia dal fare ipotesi imprecise sulle prestazioni di ricerca basate su informazioni fuori contesto, non aggiornate o incomplete. Condividiamo ampie informazioni su come funziona la ricerca e quali fattori prendono in considerazione i nostri sistemi e ci impegniamo a proteggere l’integrità dei risultati della ricerca dalla manipolazione”, ha affermato la società.

  • api
  • data leak
  • google
  • proprietà intellettuale
  • search engine
  • seo
Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Simulazioni di Phishing: 5 consigli per evitare falsi positivi dal CERT-AgID
Di Redazione RHC - 26/11/2025

Sempre più amministrazioni avviano simulazioni di campagne di phishing per misurare la capacità dei propri dipendenti di riconoscere i messaggi sospetti. Quando queste attività coinvolgono struttur...

Immagine del sito
WormGPT e KawaiiGPT Migliorano! Le “AI del male” sono un’arma per i cybercriminali
Di Redazione RHC - 26/11/2025

I criminali informatici non hanno più bisogno di convincere ChatGPT o Claude Code a scrivere malware o script per il furto di dati. Esiste già un’intera classe di modelli linguistici specializzati...

Immagine del sito
L’Europa si ribella: “Basta Microsoft”. Il Parlamento punta alla sovranità tecnologica
Di Redazione RHC - 26/11/2025

Un gruppo di membri del Parlamento europeo hanno chiesto di abbandonare l’uso interno dei prodotti Microsoft e di passare a soluzioni europee. La loro iniziativa nasce dalle crescenti preoccupazioni...

Immagine del sito
Shakerati Anonimi: la storia di Marco e il “prezzo” della Fiducia
Di Redazione RHC - 26/11/2025

Ciao a tutti… mi chiamo Marco, ho 37 anni e lavoro come impiegata amministrativa in uno studio commerciale. È la prima volta che parlo davanti a tutti voi e sono un pò emozionato … e vi assicuro...

Immagine del sito
Gli USA puntano tutto sulla “scienza automatica”. Al via la Missione Genesis: più AI e meno persone
Di Redazione RHC - 26/11/2025

Il presidente degli Stati Uniti Donald Trump ha firmato un ordine esecutivo, “Launching the Genesis Mission”, che avvia un programma nazionale per l’utilizzo dell’intelligenza artificiale nell...