Indicizzazione Google per webmaster

INDICE SEZIONI E CONTENUTI
  1. Indicizzazione Motori di Ricerca
  2. Aggiunta di URL su Google
  3. Indicizzazione e Scansione
  4. Statistiche di Googlebot
  5. Errori 404 di scansionamento
  6. Robots TXT e direttive standard
  7. Stato Indicizzazione 12 mesi
  8. Parametri URL Webmaster Tools
  9. Targeting multilingua internazionale
  10. Risoluzione problemi conclusioni

Indicizzazione sui Motori di Ricerca

Indicizzare un Sito su Google puo diventare lavoro davvero complesso anche per dei webmaster. Quando si parla di Motori di Ricerca esiste molta confusione o disinformazione. Inziando dalle società che registrano domini a livello nazionale, fino alle piccole agenzie di zona.

La stessa Indicizzazione su Google è un processo continuo, soggetto a molti aggiornamenti e non proprio automatico, da cui dipende il posizionamento generale. Si tratta della prima importante operazione alla quale bisogna decicare la massima attenzione.

Tutti diranno che i Motori di Ricerca svolgono in autonomia un lavoro di Indicizzazione e su questo non ci sono dubbi. Tuttava con Google questo diventa il problema in molti casi osservati.

Indicizzazione di Siti con migliaia di pagine oppure di un Sito Ecommerce, quando bisogna anche fare attenzione a quali pagine non indicizzare, non è davvero cosi semplice o automatico.


Aggiunta di URL all'Indice di Google

Non basta questa operazione per indicizzare un sito e lo capirete continuando a leggere!

Indicizzazione URL Google

Indicizzazione di un nuovo URL segnalato avviene in pochi secondi e in altri casi dopo giorni o non avviene per nulla. Tutto questo dipende dal vostro sito, ma anche da alcuni fattori esterni.

Senza indicizzazione non puo esserci un Posizionamento Google delle stesse pagine segnalate e da verificare in seguito. Il motore potrebbe non indicizzare le pagine un'insieme di motivi diversi.

Se leggete con attenzione c'è scritto anche "Rimozione da Google" e questo aspetto non viene di solito considerato nella Search Engine Optimization quando invece puo diventare importante rimuovere o forse meglio evitare che molti risultati vengano indicizzati.

La deindicizzazione serve a evitare che Google perda tempo a scansionare files poco importanti. In alcuni casi bisogna eliminare molti risultati indicizzati per motivi di privacy e legali o solo per dei motivi di sicurezza.

Se parliamo di SITI con 10 pagine con un File TXT Robots tutto diventa semplice quando il vostro CMS (Content Managemet Software) ha la funzione di Ping dei nuovi articoli pubblicati.


Indicizzazione e scansione di Google

Indicizzazione e scansione di Google diventano spesso dei processi giornalieri.

Indicizzazione e Scansione

Indicizzazione e scansione sono operazioni diverse fatte da un crawler, detto anche spider o robot. Si tratta di un software che analizza i contenuti pubblici di una rete o database di un sito in modo automatizzato, per conto di un motore di ricerca.

Il Crawl budget è un indicatore che riguarda Googlebot e conteggia quanti file HTML, CSS, JavaScript, PDF e Immagini vengono scansionati giornalmente. Inoltre quanti Kilobyte vengono scaricati e quanto impiega un server a inviare gli stessi files.

Il cosidetto Ranking dipende anche dal Crawling e budget assegnato che subisce delle variazioni.

Tutte le statistiche di Google Webmaster Tools comprendono indicizzazione e scansione degli ultimi 12 mesi. In ogni caso bisogna dopo calcolare il crawling-budget degli ultimi 90 giorni.

Si tratta di uno strumento SEO per webmaster (non adatto ai semplici utenti) ma solo qui è possibile notare tutte le statistiche di indicizzazione e scansione che regolano le visite di Googlebot.

Si hanno problemi di Crawl budget quando il numero di scansioni giornaliere è inferiore al numero pagine indicizzate. In questo caso aumentare il Pagerank o soltanto diminuire il numero totale di pagine e files scansionati.


Statistiche di scansione di Googlebot

Le ultime statistiche di scansione di un sito ecommerce ben ottimizzato lato server.

Statistiche di Google

Il sito ottimizzato lato server adesso risponde alle richieste di Googlebot più velocemente. E quindi si puo notare una diminuzione dei tempi di download delle singole pagine, con un aumento dei kilobytes scaricati e numero di URL scansionati giornalmente.

In questo caso un valore giornaliero maggiore del numero totale di pagine significa che Google tiene in ottima considerazione il nostro sito e relativi contenuti. I vantaggi di una scansione più frequente di un sito web serve a indicizzare eventuali aggiornamenti più velocemente.

Invece dei valori di scansionamento inferiori al numero di pagine e files indicizzati, possono indicare uno scarso interesse di Googlebot al nostro sito oppure che abbiamo esaurito tutto il Crawl budget giornaliero a nostra disposizione.

Kilobyte scaricati giornalmente dipendono dalle pagine indicizzate e scansionate. Se abbassiamo il valore medio, diventa più semplice per Google ottenere gli stessi file. Il motivo per il quale bisogna avere pagine leggere e veloci traspare da queste statistiche di scansione.

Tempo trascorso per il download di una pagina è un altro parametro importante. In questo caso dipende dal nostro server quanto è veloce a rispondere alle richieste. Un ottimo valore medio è sempre quello non superiore ai 1.000 millisecondi.


Errori 404 nella fase di scansionamento

Errori di un lavoro fatto bene lato ottimizzazione ma fatto male lato indicizzazione!

Errori 404 di Googlebot

Il sito in questione ha iniziato a conteggiare molti errori 404 dopo un cambiamento del template. Il lavoro è stato svolto da webmaster esperti che tuttavia non si sono preoccupati in anticipo del fatto che ci sarebbe stata una nuova indicizzazione.

Il problema in seguito puo essere che Google trovando migliaia di errori 404 risponda in modo negativo o del tutto imprevisto indicizzando URL totalmente inutili che andranno in un indice secondario e quindi non presenterà anche in fase di ricerca.

Il nuovo sito meglio ottimizzato, se non viene correttamente indicizzato il risultato sarà negativo. Tutto questo l'ho visto succedere di frequente quando si cambia template, sopratutto ecommerce che in seguito hanno visto una diminuzione di posizionamenti e visite.


File Robots TXT e direttive standard

Il Robots.TXT è il primo file a essere scaricato da Google periodicamente.

Tester file Robots.txt

In particolare nel file Robots.txt si scrivono proprio le direttive per Google su quali files indicizzare e quindi risulta di basilare importanza. Tramite file Robots.txt diciamo a Google su quali pagine concentrarsi o meglio quali escludere in fase di scansione.

In realtá nel file Robots.txt che si inseriscono quali cartelle, pagine o files escludere nella scansione. Non a caso si chiamano direttive Robots Exclusion Standard anche se non tutti i BOT le rispettano. Lo stesso Googlebot puo ignorare il file Robots.txt in funzione di quanti Link puntano un URL sia interni che esterni.

In alcuni casi non è sufficiente inserire il Noindex o Disallow per impedire la scansione di una cartella o file specifico da parte di Googlebot e bisogna meglio analizzare files di log del server per capire la situazione.

Tutto il processo Indicizzazione e scansione nei Siti Ecommerce e blog con molti plugin attivi, siccome avviene automaticamente andrebbe controllato e anche impostato manualmente.


Stato Indicizzazione degli ultimi 12 mesi

Il Tool per webmaster di Google nella sezione dedicata memorizza lo stato dell'Indicizzazione degli ultimi 12 mesi del dominio monitorato e quindi non si limita a mostrare soltanto 90 giorni.

Stato di Indicizzazione

In questa immagine ho inserito un caso reale di sito E-commerce con oltre 40.000 URL che sono stati rimossi progressivamente dagli indici di Google, dopo un grande lavoro di ottimizzazione.

Lavoro complesso lato SEO dove ho perso molto tempo e sfiderei chiunque a rifare un lavoro del genere. Non escludo che qualcuno accetterebbe di farlo se il cliente paga il conto. Ma nel momento di produrre nuovi risultati su Google e reportizzare il tutto sarebbero problemi.

In questo caso sito multilingua creato con un CMS fatto ad hoc è stato necessario deindicizzare molti URL progressivamente. Qui il problema era che Googlebot ha iniziato a indicizzare tutte le varianti di parametri URL eseguendo in autonomia delle query interne.

Inoltre molti di questi URL non erano SEO friendly e mancano le specifiche di canonicalizzazione.

In questo sito è stato necessario fare una riscrittura di tutti gli URL lato server grazie al file .htaccess e aggiunta di istruzioni SQL nel database e nei vari file in php. Tuttavia non è stato sufficiente a deindicizzare migliaia di URL che Googlebot scansionava di continuo.

Il dominio in questione riceveva molti back-link e quindi un altissima frequenza di scansionamento. La rimozione manuale di ogni URL era del tutto impensabile e solo provvisoria in quanto gli stessi URL verrano di nuovo indicizzati dopo 90 giorni.

Inoltre bisognava gestire tutti gli eventuali redirect 301 per non perdere la sua Link-popularity evitando tutti gli errori 404 che potevano verificarsi. In questo caso, riscrivere il file Robots.txt non era sufficiente a risolvere il problema.


Parametri URL di Webmaster Tools

Lasciar decidere tutto a Google non è sempre la cosa migliore per il nostro sito!

Parametri URL di Google

Molti CMS oggi rendono disponibili gli stessi contenuti con URL differenti utilizzando ID o altri parametri. In questo caso un ID è solo un numero URL che viene aggiunto al percorso, creando una nuova pagina personalizzata per ogni utente che la visita.

Ad esempio: ID di sessione in un Sito di shopping fanno in modo che gli utenti visualizzano il contenuto del proprio carrello, mentre continuano a navigare o sfogliare il catalogo e altre schede prodotti.

Google puo rilevare questi parametri URL e identificarli come dei contenuti duplicati. In molti casi racchiude gli URL identici in un unico "cluster" che potrebbe indicizzare. Si tratta di un algoritmo che seleziona quali pagine ritiene essere URL migliori nei risultati di ricerca.

In seguito si possono trovare anche 100 URL identici nella fase di scansione, che si differenziano per un parametro ID numerico. In questo caso Google determina quale sia l'URL migliore tramite il numero di Link esterni o interni.

Con questi Parametri URL bisogna fare attenzione! Google non deve interrompere la scansione di URL che invece bisogna rendere visibili nella ricerca e quindi sapere esattamente cosa fare.


Targeting Multilingua o Internazionale

Targeting Internazionale

La ricerca su Google restituisce dei risultati in base alle keywords e localizzazione degli utenti. In ogni caso, molte ricerche oggi includono termini in inglese, anche quando si vuole fanno una ricerche su Google.it come avviene di solito.

Google riesce a identificare la lignua di un Sito dall'estensione del dominio e suoi contenuti. Ma per svariati motivi che dipendono dalle keywords o Link ricevuti dall'estero può avere difficoltà a catalogare le pagine.

In alcuni casi Google puo mostrare un Link Traduci questa pagina anche se la pagina non ha bisogno di essere tradotta. In questo caso, il sito ha bisogno di impostare il Targeting internazionale e indicizzare nuovamente le pagine.

Il Targeting internazionale serve per indicare a Google la lingua o paese in modo esatto e in caso di sito multi-lingua bisogna impostarlo a livello di sottodominio se presente.


Risoluzione dei problemi e conclusioni

Indicizzare un Sito su Google in modo ottimale puo essere una cosa semplice o difficile. Tutto dipende dal CMS utilizzato quando si tratta di Siti complessi con molte pagine di tipo ecommerce. Le cose si complicano anche quando si tratta di Siti multilingua.

Sito ottimizzato non significa anche Indicizzato al meglio su Google nella ricerca. La scansione di un Sito diventa un processo continuo 24 ore per 365 giorni l'anno da parte dei motori di ricerca.

Lo Stato di Indicizzazione degli ultimi 12 mesi serve a vedere il numero di pagine indicizzate, che avranno una loro frequenza di scansione. Lo scopo è quello di ottimizzare tutto il processo di scansione giornaliero.

Infine bisogna capire dove Googlebot perde solo tempo, considerando che le visite dello spyder durano pochi secondi, nella scansione di tutte le nostre pagine, immagini e files indicizzati.

Leggi anche quali Tipi di files Google puo indicizzare e mostrare nella ricerca

01-10-2017 © Carmelo Raccioppi