Indicizzazione Google per webmaster

- Best practices della SEO Indicizzazione Motori di Ricerca solo per Webmaster -

INDICE SEZIONI E CONTENUTI
  1. Indicizzazione Motori di Ricerca
  2. Aggiunta di URL su Google
  3. Tipo di files per indicizzazione
  4. Indicizzazione e Scansione
  5. Statistiche di Googlebot
  6. Errori 404 di scansionamento
  7. Robots TXT e direttive standard
  8. Stato Indicizzazione 12 mesi
  9. Parametri URL Webmaster Tools
  10. Targeting multilingua internazionale

Indicizzazione sui Motori di Ricerca

Indicizzare un Sito su Google puo diventare lavoro davvero complesso anche per dei webmaster. Quando si parla di Motori di Ricerca esiste molta confusione o disinformazione. Inziando dalle società che registrano domini a livello nazionale, fino alle piccole agenzie di zona.

La stessa Indicizzazione su Google è un processo continuo, soggetto a molti aggiornamenti e non proprio automatico, da cui dipende il posizionamento generale. Si tratta della prima importante operazione alla quale bisogna decicare la massima attenzione.

Tutti diranno che i Motori di Ricerca svolgono in autonomia un lavoro di Indicizzazione e su questo non ci sono dubbi. Tuttava con Google questo diventa il problema in molti casi osservati.

Indicizzazione di Siti con migliaia di pagine oppure di un Sito Ecommerce, quando bisogna anche fare attenzione a quali pagine non indicizzare, non è davvero cosi semplice o automatico.


Aggiunta di URL all'Indice di Google

Non basta questa operazione per Indicizzare un Sito e lo capirete continuando a leggere!

Indicizzazione URL Google

Indicizzazione di un nuovo URL segnalato avviene in pochi secondi e in altri casi dopo giorni o non avviene per nulla. Tutto questo dipende dal vostro sito, ma anche da alcuni fattori esterni.

Lo stesso Google scrive che basta andare su questa pagina "Aggiungi URL" e segnalare il proprio sito, che lo stesso entro poco tempo verrà forse indicizzato. E quindi si tratta di una probabilità e non proprio di una certezza.

Se leggete con attenzione c'è scritto anche "Rimozione da Google" e questo aspetto non viene di solito considerato nella Search Engine Optimization quando invece puo diventare importante rimuovere o forse meglio evitare che molti risultati vengano indicizzati.

La deincizzazione di risultati da Google ha lo scopo di evitare che googlebot perda tempo a scansionare files poco importanti. In alcuni casi bisogna eliminare risultati dall'Indice per motivi di privacy o esclusivamente per motivi di sicurezza.

Se parliamo di SITI con 10 pagine con un File TXT Robots tutto diventa semplice quando il vostro CMS (Content Managemet Software) ha la funzione di Ping dei nuovi articoli pubblicati.


Tipo di files per Indicizzazione

Tutti i motori di ricerca evoluti come Google indicizzano questi files singolarmente!

Tipo files indicizzazione motori di ricerca

Google puo indicizzare molti files di tipo diverso e lo spyder ormai si comporta come un browser (utente) e non come un semplice robot che ogni tanto visita il nostro Sito quando se lo ricorda.

In realtà sono gli URL acronimo di Uniform Resource Locator a essere indicizzati. Tutte le pagine (che sono un'insieme di files) vengono archiviate dopo essere state scansionate e renderizzate.

Nel suo enorme Indice Google contiene Miliardi di URL anche identici o simili e solo per evitare duplicati bisogna impostare la "canonicalizzazione" come viene suggertito dalle guidelines per webmaster.


Indicizzazione e scansione di Google

Indicizzazione è soggetta agli aggiornamenti e la scansione diventa un processo giornaliero.

Indicizzazione e Scansione

Indicizzazione e scansione sono operazioni diverse fatte da un crawler, detto anche spider o robot. Si tratta di un software che analizza i contenuti pubblici di una rete o database di un sito in modo automatizzato, per conto di un motore di ricerca.

Il Crawl budget è un indicatore che riguarda Googlebot e conteggia quanti file HTML, CSS, JavaScript, PDF e Immagini vengono scansionati giornalmente. Inoltre quanti Kilobyte vengono scaricati e quanto impiega un server a inviare gli stessi files.

Il cosidetto Ranking dipende anche dal Crawling e budget assegnato che subisce delle variazioni.

Tutto questo si può notare con Google Webmaster Tools dove è possibile visualizzare le statistiche di Indicizzazione degli ultimi 12 mesi e sopratutto quelle di scansione, dove è possibile calcolare il Crawl-budget degli ultimi 90 giorni.

Si tratta di uno strumento SEO per webmaster (non adatto ai semplici utenti) ma solo qui è possibile notare tutte le statistiche di indicizzazione e scansione che regolano le visite di Googlebot.

Si hanno problemi di Crawl budget quando il numero di scansioni giornaliere è inferiore al numero pagine indicizzate. In questo caso aumentare il Pagerank o soltanto diminuire il numero totale di pagine e files scansionati.


Statistiche di scansione di Googlebot

Statistiche di Google

In questa immagine si notano le statistiche di scansione di un sito ottimizzato lato server a rispondere più velocemente alle richieste di Googlebot. La cosa più evidente che si puo notare è che una diminuzione dei tempi di download delle singole pagine ha fatto aumentare i kilobytes scaricati e il numero di URL scansionati giornalmente.

In questo caso un valore giornaliero maggiore del numero totale di pagine significa che Google tiene in ottima considerazione il nostro sito e relativi contenuti. I vantaggi di una scansione più frequente di un sito web serve a indicizzare eventuali aggiornamenti più velocemente.

Invece dei valori di scansionamento inferiori al numero di pagine e files indicizzati, possono indicare uno scarso interesse di Googlebot al nostro sito oppure che abbiamo esaurito tutto il Crawl budget giornaliero a nostra disposizione.

Kilobyte scaricati giornalmente dipendono dalle pagine indicizzate e scansionate. Se abbassiamo il valore medio, diventa più semplice per Google ottenere gli stessi file. Il motivo per il quale bisogna avere pagine leggere e veloci traspare da queste statistiche di scansione.

Tempo trascorso per il download di una pagina è un altro parametro importante. In questo caso dipende dal nostro server quanto è veloce a rispondere alle richieste. Un ottimo valore medio è sempre quello non superiore ai 1.000 millisecondi.


Errori 404 nella fase di scansionamento

Si tratta di un lavoro fatto bene lato ottimizzazione, ma fatto male lato Indicizzazione.

Errori 404 di Googlebot

Il sito in questione ha iniziato a conteggiare molti errori 404 dopo un cambiamento del template. Il lavoro è stato svolto da webmaster esperti che tuttavia non si sono preoccupati in anticipo del fatto che ci sarebbe stata una nuova indicizzazione.

Il problema in seguito puo essere che Google trovando migliaia di errori 404 risponda in modo negativo o del tutto imprevisto indicizzando URL totalmente inutili che andranno in un indice secondario e quindi non presenterà anche in fase di ricerca.

Il nuovo sito meglio ottimizzato, se non viene correttamente indicizzato il risultato sarà negativo. Tutto questo l'ho visto succedere di frequente quando si cambia template, sopratutto ecommerce che in seguito hanno visto una diminuzione di posizionamenti e visite.


File Robots TXT e direttive standard

Il file Robots.txt è il primo file a essere scaricato da Google e da tutti i motori di ricerca.

Tester file Robots.txt

In particolare nel file Robots.txt si scrivono proprio le direttive per Google su quali files indicizzare e quindi risulta di basilare importanza. Tramite file Robots.txt diciamo a Google su quali pagine concentrarsi o meglio quali escludere in fase di scansione.

In realtá nel file Robots.txt che si inseriscono quali cartelle, pagine o files escludere nella scansione. Non a caso si chiamano direttive Robots Exclusion Standard anche se non tutti i BOT le rispettano. Lo stesso Googlebot puo ignorare il file Robots.txt in funzione di quanti Link puntano un URL sia interni che esterni.

In alcuni casi non è sufficiente inserire il meta tag Noindex o Disallow per impedire la scansione di una cartella o file specifico da parte di Googlebot e bisogna meglio analizzare files di log del server per capire la situazione.

In alcuni casi non è sufficiente inserire il Noindex o Disallow per impedire la scansione di una cartella o file specifico da parte di Googlebot e bisogna meglio analizzare Files di Log del server per capire meglio la situazione.

Tutto il processo Indicizzazione e scansione nei Siti Ecommerce e blog con molti plugin attivi, siccome avviene automaticamente andrebbe controllato e anche impostato manualmente.


Stato Indicizzazione degli ultimi 12 mesi

Il Tool per webmaster di Google nella sezione dedicata memorizza lo stato dell'Indicizzazione degli ultimi 12 mesi del dominio monitorato e quindi non si limita a mostrare soltanto 90 giorni.

Stato di Indicizzazione

In questa immagine ho inserito un caso reale di sito E-commerce con oltre 40.000 URL che sono stati rimossi progressivamente dagli indici di Google, dopo un grande lavoro di ottimizzazione.

Lavoro complesso lato SEO dove ho perso molto tempo e sfiderei chiunque a rifare un lavoro del genere. Non escludo che qualcuno accetterebbe di farlo se il cliente paga il conto. Ma nel momento di produrre nuovi risultati su Google e reportizzare il tutto sarebbero problemi.

In questo caso sito multilingua creato con un CMS fatto ad hoc è stato necessario deindicizzare molti URL progressivamente. Qui il problema era che Googlebot ha iniziato a indicizzare tutte le varianti di parametri URL eseguendo in autonomia delle query interne.

Inoltre molti di questi URL non erano SEO friendly e mancano le specifiche di canonicalizzazione.

In questo sito è stato necessario fare una riscrittura di tutti gli URL lato server grazie al file .htaccess e aggiunta di istruzioni SQL nel database e nei vari file in php. Tuttavia non è stato sufficiente a deindicizzare migliaia di URL che Googlebot scansionava di continuo.

Il dominio in questione riceveva molti back-link e quindi un altissima frequenza di scansionamento. La rimozione manuale di ogni URL era del tutto impensabile e solo provvisoria in quanto gli stessi URL verrano di nuovo indicizzati dopo 90 giorni.

Inoltre bisognava gestire tutti gli eventuali redirect 301 per non perdere la sua Link-popularity evitando tutti gli errori 404 che potevano verificarsi. In questo caso, riscrivere il file Robots.txt non era sufficiente a risolvere il problema.


Parametri URL di Webmaster Tools

Lasciar decidere tutto a Google non è sempre la cosa migliore da fare per il nostro sito!

Parametri URL di Google

Molti Siti oggi rendono disponibili gli stessi contenuti con URL differenti utilizzando ID o altri parametri. In questo caso un ID è solo un numero URL che viene aggiunto al percorso, creando una nuova pagina personalizzata per ogni utente che la visita.

Ad esempio: ID di sessione in un Sito di shopping fanno in modo che gli utenti visualizzano il contenuto del proprio carrello, mentre continuano a navigare o sfogliare il catalogo e altre schede prodotti.

Google puo rilevare questi parametri URL e identificarli come dei contenuti duplicati. In molti casi racchiude gli URL identici in un unico "cluster" che potrebbe indicizzare. Si tratta di un algoritmo che seleziona quali pagine ritiene essere URL migliori nei risultati di ricerca.

In seguito si possono trovare anche 100 URL identici nella fase di scansione, che si differenziano per un parametro ID numerico. In questo caso Google determina quale sia l'URL migliore tramite il numero di Link esterni o interni.

Con questi Parametri URL bisogna fare attenzione! Google non deve interrompere la scansione di URL che invece bisogna rendere visibili nella ricerca e quindi sapere esattamente cosa fare.


Targeting Multilingua o Internazionale

Targeting Internazionale

La ricerca su Google restituisce dei risultati in base alle keywords e localizzazione degli utenti. In ogni caso, molte ricerche oggi includono termini in inglese, anche quando si vuole fanno una ricerche su Google.it come avviene di solito.

Google riesce a identificare la lignua di un Sito dall'estensione del dominio e suoi contenuti. Ma per svariati motivi che dipendono dalle keywords o Link ricevuti dall'estero può avere difficoltà a catalogare le pagine.

In alcuni casi Google puo mostrare un Link Traduci questa pagina anche se la pagina non ha bisogno di essere tradotta. In questo caso, il sito ha bisogno di impostare il Targeting internazionale e indicizzare nuovamente le pagine.

Il Targeting internazionale serve per indicare a Google la lingua o paese in modo esatto e in caso di sito multi-lingua bisogna impostarlo a livello di sottodominio se presente.


Risoluzione dei problemi e conclusioni

Indicizzare un Sito su Google in modo ottimale puo essere una cosa semplice o difficile. Tutto dipende dal CMS utilizzato quando si tratta di Siti complessi con molte pagine di tipo ecommerce. Le cose si complicano anche quando si tratta di Siti multilingua.

Sito ottimizzato non significa anche Indicizzato al meglio su Google nella ricerca. La scansione di un Sito diventa un processo continuo 24 ore per 365 giorni l'anno da parte dei motori di ricerca.

Lo Stato di Indicizzazione degli ultimi 12 mesi serve a vedere il numero di pagine indicizzate, che avranno una loro frequenza di scansione. Lo scopo è quello di ottimizzare tutto il processo di scansione giornaliero.

Infine bisogna capire dove Googlebot perde solo tempo, considerando che le visite dello spyder durano pochi secondi, nella scansione di tutte le nostre pagine, immagini e files indicizzati.

01-10-2017 © Carmelo Raccioppi