File Robots.txt: cos’è, struttura e come si crea. Gli esempi pratici

Ilario Panico SEO > Seo Tecnica > File Robots.txt: cos’è, struttura e come si crea. Gli esempi pratici

file robots.txt sono file di testo utilizzati dai motori di ricerca per capire quali pagine del sito possono o non possono essere indicizzate. Questi file vengono solitamente utilizzati per evitare che gli spider dei motori di ricerca indicizzino pagine errate o per limitare l’utilizzo della larghezza di banda del server. Tuttavia, è importante notare che gli spider dei motori di ricerca possono ignorare le istruzioni presenti nei file robots.txt, quindi non devono essere utilizzati come metodo principale per proteggere le pagine del sito.

Cos’è un file robots.txt

Un robots.txt è un file di testo presente nella root del sito web che specifica agli spider dei motori di ricerca quali pagine o sezioni del sito non dovrebbero essere visitate. Come anticipato gli spider dei motori di ricerca utilizzano questo file per capire quali pagine del sito possono o non possono essere indicizzate. Il file robots.txt viene utilizzato principalmente per evitare che gli spider dei motori di ricerca indicizzino pagine non desiderate, ad esempio pagine di test, pagine di archivio o pagine di sviluppo. Inoltre, può essere utilizzato per evitare che il sito venga penalizzato a causa di contenuti duplicati o per limitare l’utilizzo della larghezza di banda del server.

Perché viene utilizzato nella SEO?

Viene utilizzato principalmente per evitare che gli spider dei motori di ricerca indicizzino pagine non desiderate. Ad esempio, se un sito web include una sezione di archivio con pagine vecchie o non più rilevanti, il proprietario del sito potrebbe utilizzare un file robots.txt per impedire agli spider dei motori di ricerca di indicizzare queste pagine. In questo modo, il sito non verrà penalizzato nei risultati di ricerca a causa di contenuti obsoleti o poco rilevanti.

Esempio di utilizzo

Un file robots.txt può anche essere utilizzato per limitare l’utilizzo della larghezza di banda del server. Ad esempio, se il sito riceve un elevato traffico di spider dei motori di ricerca, il proprietario del sito potrebbe utilizzare un file robots.txt per impedire agli spider di accedere a determinate sezioni del sito, riducendo così il carico sul server.

Evitare penalizzazioni col file robots.txt

Inoltre, il file robots.txt può essere utilizzato per evitare che il sito venga penalizzato a causa di contenuti duplicati. Ad esempio, se il sito include pagine che sono esattamente uguali ad altre pagine presenti su Internet, il proprietario del sito potrebbe utilizzare un file robots.txt per impedire agli spider dei motori di ricerca di indicizzare queste pagine, evitando così la penalizzazione per contenuti duplicati.

Struttura di un file robots.txt

File robots
Il robots del sito ilariopanico.it

Un file robots.txt è composto da una o più linee di “User-agent” e da una o più linee di “Disallow”. Ogni “User-agent” specifica uno spider per il quale le regole del file sono valide, mentre ogni “Disallow” specifica una pagina o una sezione del sito che non deve essere visitata dallo spider specificato. Una struttura di base di un file robots.txt può essere così composta:

  • Una o più linee di “User-agent”, che specificano gli spider per i quali le regole del file sono valide. Ad esempio:

User-agent: Googlebot
User-agent: Bingbot

  • Una o più linee di “Disallow”, che specificano le pagine o le sezioni del sito che non devono essere visitate dallo spider specificato:

Disallow: /private/
Disallow: /tmp/

Robots: esempi pratici di scrittura del file: copia e incolla

Per bloccare tutti gli spider:User-agent: *
Disallow: /
Bloccare solo uno spider specifico:User-agent: NomeBot
Disallow: /
Consentire l’accesso a tutte le pagine tranne una specifica:User-agent: *
Disallow: /pagina-specifica/
Consentire l’accesso a tutte le pagine tranne diverse pagine specifiche:User-agent: *
Disallow: /pagina-specifica-1/
Disallow: /pagina-specifica-2/
Disallow: /pagina-specifica-3.html
Consentire l’accesso a una sola pagina:User-agent: *
Disallow: /
Allow: /pagina.html
Impedire agli spider di accedere a tutte le pagine che iniziano con un determinato percorso:User-agent: *
Disallow: /nome-percorso/*
Impedire agli spider di accedere a una sola pagina:User-agent: *
Disallow: /percorso/nome-pagina.html
Impedire agli spider di accedere a tutte le pagine, tranne quelle che iniziano con un determinato percorso:User-agent: *
Disallow: /
Allow: /percorso-pagine-da-indicizzare/
Impedire agli spider di accedere a tutte le pagine tranne quelle che appartengono a un determinato sottodominio:User-agent: *
Disallow: /
Allow: /public/
Allow: /blog.example.com/
Impedire agli spider di accedere a tutte le pagine tranne quelle che appartengono a un determinato dominio:User-agent: *
Disallow: /
Allow: /public/
Allow: /example.com/
Impedire agli spider di accedere a tutte le pagine tranne quelle che appartengono a un determinato percorso, ma consentire l’accesso a una pagina specifica:User-agent: *
Disallow: /private/
Allow: /private/important.html

È importante notare che una linea di “Disallow” vuota, ad esempio “Disallow:”, significa che lo spider può accedere a tutte le pagine del sito. Inoltre, è possibile utilizzare il carattere jolly “” per specificare tutte le pagine che iniziano con un determinato percorso. Ad esempio, “Disallow: /private/” impedirà agli spider di accedere a tutte le pagine che iniziano con “/private/”.

Cosa fare se si riscontrano problemi con il file robots.txt

Se si riscontrano problemi con il file robots.txt, ad esempio se il sito non viene indicizzato correttamente o se vengono bloccati contenuti importanti, è possibile utilizzare gli strumenti per gli sviluppatori dei motori di ricerca per verificare se il file viene interpretato correttamente. Ad esempio, Google offre lo strumento “Google Search Console” che permette di verificare se il file robots.txt viene letto correttamente e se ci sono eventuali problemi di indicizzazione del sito.

Inoltre, è possibile utilizzare il file “meta robots” all’interno delle singole pagine del sito per fornire ulteriori istruzioni agli spider dei motori di ricerca. Ad esempio, il tag “meta robots” può essere utilizzato per impedire l’indicizzazione di una pagina o per specificare il testo della descrizione della pagina che deve essere mostrato nei risultati di ricerca.

Se il file robots.txt viene ignorato dagli spider dei motori di ricerca o se il sito presenta altri problemi di indicizzazione, è possibile contattare il supporto dei motori di ricerca per richiedere assistenza. E’ possibile utilizzare i forum online o rivolgersi a un professionista per una consulenza SEO e così ottenere ulteriore supporto e consigli su come risolvere i problemi.

Suggerimenti per l’utilizzo di un file robots.txt

Utilizzare il file robots.txt in modo efficace può aiutare a ottenere il massimo dall’ottimizzazione del motore di ricerca e a evitare problemi di indicizzazione del sito. Ecco alcuni suggerimenti per ottenere il massimo dal file:

  1. Utilizza il file robots.txt solo per indicare agli spider dei motori di ricerca le pagine che non devono essere indicizzate. Non utilizzare il file per proteggere le pagine del sito o per nascondere contenuti. Gli spider dei motori di ricerca possono ignorare le istruzioni presenti nei file robots.txt e alcuni possono anche ignorare le regole di accesso.
  2. Assicurati di utilizzare il file robots.txt solo per le pagine che non devono essere indicizzate. Non utilizzare il file per bloccare pagine che devono essere indicizzate o per limitare l’accesso a determinate sezioni del sito.
  3. Utilizza il file “meta robots” all’interno delle singole pagine del sito per fornire ulteriori istruzioni agli spider dei motori di ricerca.
  4. Utilizza gli strumenti per gli sviluppatori dei motori di ricerca per verificare se il file viene interpretato correttamente e se ci sono eventuali problemi di indicizzazione del sito.
  5. Contatta il supporto dei motori di ricerca o rivolgiti a un esperto SEO se hai bisogno di ulteriore supporto o consigli su come risolvere i problemi con il file robots.txt o alt,

CHI È L'AUTORE

Mi chiamo Ilario Panico: specializzato in Digital Marketing, SEO editoriale, SEO tecnica e creazione di siti web. Sono esperto nel posizionamento e nell'indicizzazione di portali, siti web e e-commerce. Cosa posso fare per te? Collaborare online, da remoto o se preferisci in sede. Contattami direttamente per parlarne attraverso uno dei tanti canali disponibili sul mio portale. Inoltre, puoi trovare maggiori info nella pagina "chi sono".

Lascia un commento