Cos'è il file Robots.txt e perchè è importante per la SEO

Il file Robots.txt può essere un elemento cruciale per la strategia SEO. Tra direttive ed errori da non fare, in questa guida scopriremo quali sono le sue caratteristiche e perché è importante.

Pubblicato il 08 agosto 2023
Alt text

Non sei molto pratico del mondo SEO e ti stai chiedendo un file robots.txt cos’è? Questa guida fa decisamente al caso tuo. Partiamo col dire che si tratta di un documento cruciale per la gestione di ogni progetto SEO, perché contiene istruzioni importanti per i motori di ricerca, chiamate direttive.

Al suo interno vengono indicati quali sono i file del sito web o dell’ecommerce da scansionare e indicizzare e quali quelli da ignorare. Un bravo consulente SEO è in grado di preparare un documento preciso e dettagliato che consenta ai crawler di scansionare il sito senza commettere errori. In questo modo si risparmia tempo e si evitano indicizzazioni non ottimali, che potrebbero portare anche a penalizzazioni da parte di Google.

Ecco, in breve, cos’è il file robots.txt. Ora non resta che scoprire le best practice, le sue direttive e il ruolo del robots.txt nella SEO.

File Robots.txt: le best practice da seguire

Compilare in modo corretto il file Robots.txt permette di comunicare efficacemente con i crawler di Google. Esistono delle best practice da tenere in considerazione quando si costruisce questo documento:

  • Inserire il file nella directory iniziale del dominio. Per esempio: https://www.nomedominio.it/robots.txt;
  • Ricontrollare sempre il file per evitare che il motore scansioni documenti da ignorare o che, ancora peggio, il sito non appaia negli indici di Google;
  • Ogni motore di ricerca interpreta il file a proprio modo;
  • Evitare la direttiva craw-delay.

Il motore di ricerca scansiona frequentemente il file alla ricerca di novità. Google ha comunicato che il file viene memorizzato nella cache per massimo 24 ore. Bisogna tenerlo in considerazione per gestire eventuali modifiche del documento, in modo che i bot le trovino sempre pronte.

Se ci si dimentica di caricare il file nel sistema, il motore scansiona l’intero sito web. A questo punto si potrebbero trovare all’interno della SERP anche pagine inutili o “inopportune”. Per esempio, si potrebbe trovare in prima posizione la pagina di accesso al CMS. E questo, oltre a essere un problema per il sito, rischia di diventare anche un danno alla sicurezza: la pagina di accesso finirebbe alla mercé di tutti.

Dove appare il tuo sito?
Ottimizzalo in chiave SEO con i nostri esperti!

Scopri come

Quali sono le direttive di un file Robots.txt

Come abbiamo detto, con la direttiva di un file robots.txt si intende l’istruzione che l’amministratore del sito web manda al motore di ricerca. Ogni motore di ricerca si identifica tramite il cosiddetto user-agent. Le direttive possono parlare sia ad un solo user-agent sia a diversi. In questo caso, viene usato l’asterisco nel documento.

Le direttive sono le seguenti:

  • Disallow: indica al motore di non scansionare una particolare cartella;
  • Allow: indica quali sono i percorsi da scansionare e indicizzare. Si può comunicare al motore di non considerare una cartella, ma con Allow si può decidere di scansionare un solo file presente in quella cartella;
  • Sitemap: nel file Robots.txt si comunica al motore qual è la posizione della Sitemap, una funzione supportata da tutti i motori di ricerca, da Google a Bing passando per Yahoo. Per esempio, si può indicare al motore che la Sitemap si trova al seguente indirizzo https://www.nomedominio.it/sitemap.xml. Si possono indicare anche più sitemap;
  • No follow: questa direttiva non è supportata da Google ma molti la usano per indicare quali link o file non seguire;
  • Craw-delay: serve per evitare che il server vada in sovraccarico durante la scansione del file. Per esempio, si può richiedere al crawler di attendere tre secondi prima di scansionare una parte del sito.

Ruolo del file Robots.txt nella SEO

Il documento ha un ruolo cruciale per la SEO, perché è strettamente legato all’attività dei motori di ricerca, da cui dipende la visibilità di un sito web. Questo file è quindi una via di comunicazione cruciale, da usare anche per prevenire eventuali penalizzazioni. Per esempio, si può usare per controllare la presenza di file duplicati e, nel caso, eliminare la copia. Inoltre, permette ai crawler di gestire al meglio il tempo di scansione.

Infatti, questi elementi hanno un lasso di tempo ben definito, chiamato crawl budget, oltre il quale non vanno. Senza il file robots.txt si rischia di perdere posizionamento su pagine importanti. Mentre indicando ai bot specifiche pagine, questi si concentreranno per leggerle e indicizzarle al meglio. Infatti, un buon esperto SEO è anche quello che seleziona con attenzione le pagine da mostrare. Ciò vale soprattutto per le piattaforme con migliaia di pagine.

File robots.txt personalizzato: gli errori da non fare

Una volta compreso cos’è il file robots.txt e come creare file robots.txt è necessario spiegare quali sono gli errori da non fare. Quando si procede a creare un file robots.txt personalizzato per il proprio sito web, è importante evitare alcuni errori comuni che potrebbero avere un impatto negativo sul posizionamento e l’indicizzazione delle pagine da parte dei motori di ricerca.

Ecco alcuni esempi:

  • Bloccare l’accesso a pagine importanti: assicurarsi di non bloccare l’accesso alle pagine cruciali del sito, come la home page, le pagine di contatto o le pagine di prodotto/servizio. Se si impedisce ai motori di ricerca di accedere a queste pagine, il sito potrebbe non essere indicizzato correttamente;
  • Utilizzare “Disallow: /”: questa direttiva nega l’accesso a tutte le pagine del sito web. Ergo, bisogna impostare “Disallow: /” solo se si intende impedire ai motori di ricerca di accedere all’intero sito;
  • Ignorare i sottodomini: se il sito ha sottodomini separati, assicurarsi di creare un file “robots.txt” per ciascuno di essi e impostare le regole appropriate per ciascun sottodominio;
  • Utilizzare commenti in modo improprio: se si utilizzano commenti nel file “robots.txt”, assicurarsi che siano formattati correttamente e non interferiscano con le direttive;
  • Utilizzare URL con tratti finali: assicurarsi di includere sempre uno slash finale nelle URL delle cartelle o dei file che si desidera bloccare o consentire. Ad esempio, utilizzare “/cartella/” invece di “/cartella”;
  • Specificare URL di file obsoleti: se ci sono file obsoleti sul sito che non devono essere indicizzati, è meglio rimuoverli completamente anziché specificarli nel file “robots.txt”;
  • Impedire l’accesso ai file CSS e JS: non bloccare l’accesso ai file CSS e JS utilizzati per il design e il funzionamento del sito, poiché questo potrebbe influire negativamente sull’indicizzazione e sull’esperienza utente;
  • Bloccare tutti i bot: assicurarsi che il file “robots.txt” non blocchi l’accesso a tutti i bot dei motori di ricerca. In caso contrario, il sito non verrà indicizzato dai motori di ricerca;
  • Utilizzare URL sensibili: non includere informazioni sensibili o confidenziali nelle direttive del file “robots.txt”, poiché queste informazioni potrebbero essere facilmente accessibili ai motori di ricerca;
  • Non verificare il file “robots.txt”: assicurarsi di verificare il file “robots.txt” per errori o sintassi scorretta prima di implementarlo sul sito.

È importante prestare attenzione a questi errori per garantire che il file “robots.txt” sia configurato correttamente e consenta ai motori di ricerca di indicizzare il sito in modo appropriato. In caso di dubbi o incertezze, è consigliabile richiedere una consulenza SEO ad un esperto in materia.

Insomma, stiamo parlando di uno strumento cruciale che deve essere costruito e controllato da esperti e addetti ai lavori per evitare errori e problemi legati al posizionamento nella SERP. Per gestire questo e altri tipi di attività legate alla strategia SEO puoi affidarti ai consulenti di Italiaonline: siamo pronti a supportare il tuo business e lavorare per garantirti la massima visibilità online.

Dove appare il tuo sito?
Ottimizzalo in chiave SEO con i nostri esperti!

Scopri come

Caricamento contenuti...

Servizio gratuito

Nessun obbligo

Promo esclusive

Parla con noi

È gratuito e senza impegno

Nome e Cognome*
Partita iva*
Numero di telefono*
* Campo obbligatorio
Cliccando sul tasto “RICHIEDI CONTATTO” accetti di essere ricontattato e accetti l’informativa privacy.
Richiesta inviata correttamente

Verrai ricontattato al più presto