Indicizzazione su Google

Indicizzare un Sito su Google puo diventare lavoro complesso solo per esperti.

Quando si parla di Indicizzazione sui Motori di Ricerca o su Google esiste molta confusione o disinformazione, inziando dalle società che registrano domini a livello nazionale, fino alle piccole agenzie di zona.

Se un sito non viene indicizzato non si trova sui Motori di Ricerca e quindi si tratta della prima e importante operazione. L'Indicizzazione è un processo continuo, soggetto a molti aggiornamenti e non del tutto automatico, da cui dipende il posizionamento generale.

Indicizzazione di siti con migliaia di pagine, quando si tratta di un blog dove ogni giorno si pubblicano articoli, quando si tratta di un sito E-commerce non è cosi semplice o automatico come molti pensano.

Tutti diranno che i Motori di Ricerca svolgono in autonomia il lavoro di Indicizzazione e su questo non ci sono dubbi. Tuttava in molti casi proprio questo diventa il problema con Google.


Aggiunta di URL all'indice di Google

Non basta questa operazione per Indicizzare un Sito e lo capirete continuando a leggere!

Indicizzazione URL Google

Indicizzazione di un nuovo URL segnalato avviene in pochi secondi e in altri casi dopo giorni o non avviene per nulla. Tutto questo dipende dal vostro sito, ma anche da alcuni fattori esterni.

Lo stesso Google scrive che basta andare su questa pagina "Aggiungi URL" e segnalare il proprio sito, che lo stesso entro poco tempo verrà forse indicizzato. E quindi si tratta di una probabilità e non proprio di una certezza.

Se leggete bene si parla anche di Rimozione di URL da Google e questo non viene molto considerato dai webmaster e spesso neanche dai SEO quando invece rimuovere o solo evitare che molti risultati siano indicizzati diventa importante.

Se parliamo di SITI con 10 pagine da indicizzare la cosa diventa semplice con un file Robots.txt preconfigurato e quando il vostro CMS ha la funzione di Ping degli nuovi articoli pubblicati.


Tipi di files che Google può indicizzare

Tutti i motori di ricerca evoluti come Google indicizzano questi files singolarmente.

Indicizzazione Google files

Non basta segnalare ai Motori di Ricerca e sopratutto nei siti più complessi bisogna fare attenzione a quali pagine non indicizzare. Non solo per una questione di sicurezza, ma perchè ogni dominio ha un suo Crawl-budget assegnato da Google.

In realtà sono gli URL acronimo di Uniform Resource Locator a essere indicizzati da Google. Invece le pagine (che sono un'insieme di files) vengono archiviate solo dopo essere state scansionate. Google non è l'unico motore di ricerca a fare questo lavoro naturalmente.

Google nel suo indice contiene spesso molti URL identici che sarebbe una buona norma "canonicalizzare" per evitare quelli duplicati. Infine, quando un sito è dinamico bisogna fare un rewriting o impostare dei Parametri URL con dei valori di scansionamento se necessario.

Tutti i files indicizzati da Google sono più numerosi di quanto immaginiamo e uno spyder ormai si comporta come se fosse un browser o utente, non un semplice robot che ogni tanto visita il nostro sito quando se lo ricorda.

Indicizzare un sito su Google non è quindi un'operazione cosi automatica da parte dei motori di ricerca. La stessa indicizzazione non è un processo che avviene una volta sola. Tutto diventa un aggiornamento e scansione continua anche giornaliera.


Indicizzazione e scansione di Google

Indicizzazione e Scansione

Indicizzazione e scansione sono operazioni diverse fatte da un crawler, detto anche spider o robot. Si tratta di un software che analizza i contenuti pubblici di una rete o database di un sito in modo automatizzato, per conto di un motore di ricerca.

Il Crawl budget è un indicatore che riguarda Googlebot e conteggia quanti file HTML, CSS, JavaScript, PDF e Immagini vengono scansionati giornalmente. Inoltre quanti Kilobyte vengono scaricati e quanto impiega un server a inviare gli stessi files.

Il cosidetto Ranking dipende anche dal Crawl budget assegnato che subisce delle variazioni.

Tutto questo si può notare con Google Search Console dove è possibile visualizzare le statistiche di Indicizzazione degli ultimi 12 mesi e sopratutto di scansione, dove calcolare il Crawl budget degli ultimi 90 giorni.

Nonostante sia uno strumento SEO per webmaster (non adatto ai semplici utenti) qui è possibile comunque notare le varie statistiche di indicizzazione e scansione che regolano Googlebot.

Si hanno problemi di Crawl budget quando il numero di scansioni giornaliere è inferiore al numero pagine indicizzate. In questo caso aumentare il Pagerank o soltanto diminuire il numero totale di pagine e files scansionati.


Statistiche di scansione di Googlebot

Statistiche di Google

In questa immagine si notano le statistiche di scansione di un sito ottimizzato lato server a rispondere più velocemente alle richieste di Googlebot. La cosa più evidente che si puo notare è che una diminuzione dei tempi di download delle singole pagine ha fatto aumentare i kilobytes scaricati e il numero di URL scansionati giornalmente.

In questo caso un valore giornaliero maggiore del numero totale di pagine significa che Google tiene in ottima considerazione il nostro sito e relativi contenuti. I vantaggi di una scansione più frequente di un sito web serve a indicizzare eventuali aggiornamenti più velocemente.

Invece dei valori di scansionamento inferiori al numero di pagine e files indicizzati, possono indicare uno scarso interesse di Googlebot al nostro sito oppure che abbiamo esaurito tutto il Crawl budget giornaliero a nostra disposizione.

Kilobyte scaricati giornalmente dipendono dalle pagine indicizzate e scansionate. Se abbassiamo il valore medio, diventa più semplice per Google ottenere gli stessi file. Il motivo per il quale bisogna avere pagine leggere e veloci traspare da queste statistiche di scansione.

Tempo trascorso per il download di una pagina è un altro parametro importante. In questo caso dipende dal nostro server quanto è veloce a rispondere alle richieste. Un ottimo valore medio è sempre quello non superiore ai 1.000 millisecondi.


Errori 404 nella fase di scansionamento

Si tratta di un lavoro fatto bene lato ottimizzazione, ma fatto male lato Indicizzazione.

Errori 404 di Googlebot

Il sito in questione ha iniziato a conteggiare molti errori 404 dopo un cambiamento del template. Il lavoro è stato svolto da webmaster esperti che tuttavia non si sono preoccupati in anticipo del fatto che ci sarebbe stata una nuova indicizzazione.

Il problema in seguito puo essere che Google trovando migliaia di errori 404 risponda in modo negativo o del tutto imprevisto indicizzando URL totalmente inutili che andranno in un indice secondario e quindi non presenterà anche in fase di ricerca.

Il nuovo sito meglio ottimizzato, se non viene correttamente indicizzato il risultato sarà negativo. Tutto questo l'ho visto succedere di frequente quando si cambia template, sopratutto ecommerce che in seguito hanno visto una diminuzione di posizionamenti e visite.


Il file Robots.TXT e direttive standard

Il file Robots.txt è il primo file a essere scaricato da Google e da tutti i motori di ricerca.

Tester file Robots.txt

In particolare nel file Robots.txt si scrivono proprio le direttive per Google su quali files indicizzare e quindi risulta di basilare importanza. Tramite file Robots.txt diciamo a Google su quali pagine concentrarsi o meglio quali escludere in fase di scansione.

In realtá nel file Robots.txt che si inseriscono quali cartelle, pagine o files escludere nella scansione. Non a caso si chiamano direttive Robots Exclusion Standard anche se non tutti i BOT le rispettano. Lo stesso Googlebot puo ignorare il file Robots.txt in funzione di quanti Link puntano un URL sia interni che esterni.

In alcuni casi non è sufficiente inserire il meta tag Noindex o Disallow per impedire la scansione di una cartella o file specifico da parte di Googlebot e bisogna meglio analizzare i file di log del server per capire la situazione.

Tutto il processo Indicizzazione e scansione nei siti Ecommerce e blog con molti plugin attivi, siccome avviene automaticamente andrebbe controllato e anche impostato manualmente.


Stato Indicizzazione degli ultimi 12 mesi

Il Tool per webmaster di Google nella sezione dedicata memorizza lo stato dell'Indicizzazione degli ultimi 12 mesi del dominio monitorato e quindi non si limita a mostrare soltanto 90 giorni.

Stato di Indicizzazione

In questa immagine ho inserito un caso reale di sito E-commerce con oltre 40.000 URL che sono stati rimossi progressivamente dagli indici di Google, dopo un grande lavoro di ottimizzazione.

Lavoro complesso lato SEO dove ho perso molto tempo e sfiderei chiunque a rifare un lavoro del genere. Non escludo che qualcuno accetterebbe di farlo se il cliente paga il conto. Ma nel momento di produrre nuovi risultati su Google e reportizzare il tutto sarebbero problemi.

In questo caso sito multilingua creato con un CMS fatto ad hoc è stato necessario deindicizzare molti URL progressivamente. Qui il problema era che Googlebot ha iniziato a indicizzare tutte le varianti di parametri URL eseguendo in autonomia delle query interne.

Inoltre molti di questi URL non erano SEO friendly e mancano le specifiche di canonicalizzazione.

In questo sito è stato necessario fare una riscrittura di tutti gli URL lato server grazie al file .htaccess e aggiunta di istruzioni SQL nel database e nei vari file in php. Tuttavia non è stato sufficiente a deindicizzare migliaia di URL che Googlebot scansionava di continuo.

Il dominio in questione riceveva molti back-link e quindi un altissima frequenza di scansionamento. La rimozione manuale di ogni URL era del tutto impensabile e solo provvisoria in quanto gli stessi URL verrano di nuovo indicizzati dopo 90 giorni.

Inoltre bisognava gestire tutti gli eventuali redirect 301 per non perdere la sua Link-popularity evitando tutti gli errori 404 che potevano verificarsi. In questo caso, riscrivere il file Robots.txt non era sufficiente a risolvere il problema.


Parametri URL di Webmaster Tool

Lasciar decidere tutto a Google non è sempre la cosa migliore da fare per il nostro sito!

Parametri URL Google

Molti siti di tipo ecommerce rendono disponibili gli stessi contenuti con degli URL differenti utilizzando ID o altri parametri. Un ID è solo un numero che viene aggiunto al percorso di un URL, creando una nuova pagina personalizzata per ogni utente che visita un sito ecommerce.

Ad esempio gli ID di sessione in un sito di shopping fanno in modo che gli utenti visualizzano il contenuto del proprio carrello mentre continuano a navigare o sfogliare il catalogo del sito.

Google puo rilevare tutti questi parametri URL e identificarli come dei contenuti duplicati. In molti casi racchiude gli URL identici in un unico cluster, ma che in ogni caso indicizza. In questo caso è un algoritmo che seleziona quali pagine ritiene essere l'URL migliore nei risultati di ricerca.

Si possono trovare anche 100 URL identici nella fase di scansione, che si differenziano solo per un parametro o un ID numerico. In questo caso determina quale sia l'URL migliore anche tramite il numero di link esterni o interni.

Qui bisogna fare attenzione perchè Google non deve interrompere la scansione di URL e pagine che invece bisogna includere o rendere visibili nella ricerca e sapere esattamente cosa fare.


Targeting multilingua o internazionale

Targeting Internazionale

La Ricerca su Google restituisce dei risultati in base alle keywords e localizzazione degli utenti. In ogni caso, molte ricerche oggi includono termini in inglese, anche quando si vuole fare una normale ricerca in italiano, su Google.IT come avviene di solito.

Google riesce a identificare la lignua di un Sito web dall'estensione del dominio e contenuti. Ma per svariati motivi che dipendono dalle keywords o back-link ricevuti da siti esteri può avere difficoltà a catalogare le pagine.

In alcuni casi Google può mostrare un Link Traduci questa pagina anche se la pagina non ha bisogno di essere tradotta. In questo caso, il sito ha bisogno di impostare il Targeting internazionale e indicizzare nuovamente le pagine.

Il Targeting internazionale serve per indicare a Google la lingua o paese in modo esatto e in caso di sito multi-lingua bisogna impostarlo a livello di sottodominio se presente.


Risoluzione dei problemi e conclusioni

Indicizzare un sito su Google in modo ottimale puo essere una cosa semplice o difficile, quando si tratta di siti web complessi e con molte pagine o ecommerce. Le cose si complicano anche quando si tratta di Siti multilingua.

Sito ottimizzato non significa anche sito indicizzato al meglio nella ricerca. La scansione di un sito diventa spesso un processo continuo ogni 24 ore per 365 giorni l'anno da parte di Google.

L'analisi dello stato di Indicizzazione ultimi 12 mesi serve a capire quasi sono le keywords per la rete di contenuti e quali risultati inquinano e che sarebbe meglio non indicizzare o eliminare.

In ogni caso bisogna capire meglio dove Googlebot perde tempo e consuma risorse nella fase di scansione giornaliera di tutte le nostre pagine e immagini che sono state indicizzate.


15-10-2016 © Carmelo Raccioppi