I file robots.txt sono file di testo utilizzati dai motori di ricerca per capire quali pagine del sito possono o non possono essere indicizzate. Questi file vengono solitamente utilizzati per evitare che gli spider dei motori di ricerca indicizzino pagine errate o per limitare l’utilizzo della larghezza di banda del server. Tuttavia, è importante notare che gli spider dei motori di ricerca possono ignorare le istruzioni presenti nei file robots.txt, quindi non devono essere utilizzati come metodo principale per proteggere le pagine del sito.
Cos’è un file robots.txt
Un robots.txt è un file di testo presente nella root del sito web che specifica agli spider dei motori di ricerca quali pagine o sezioni del sito non dovrebbero essere visitate. Come anticipato gli spider dei motori di ricerca utilizzano questo file per capire quali pagine del sito possono o non possono essere indicizzate. Il file robots.txt viene utilizzato principalmente per evitare che gli spider dei motori di ricerca indicizzino pagine non desiderate, ad esempio pagine di test, pagine di archivio o pagine di sviluppo. Inoltre, può essere utilizzato per evitare che il sito venga penalizzato a causa di contenuti duplicati o per limitare l’utilizzo della larghezza di banda del server.
Perché viene utilizzato nella SEO?
Viene utilizzato principalmente per evitare che gli spider dei motori di ricerca indicizzino pagine non desiderate. Ad esempio, se un sito web include una sezione di archivio con pagine vecchie o non più rilevanti, il proprietario del sito potrebbe utilizzare un file robots.txt per impedire agli spider dei motori di ricerca di indicizzare queste pagine. In questo modo, il sito non verrà penalizzato nei risultati di ricerca a causa di contenuti obsoleti o poco rilevanti.
Esempio di utilizzo
Un file robots.txt può anche essere utilizzato per limitare l’utilizzo della larghezza di banda del server. Ad esempio, se il sito riceve un elevato traffico di spider dei motori di ricerca, il proprietario del sito potrebbe utilizzare un file robots.txt per impedire agli spider di accedere a determinate sezioni del sito, riducendo così il carico sul server.
Evitare penalizzazioni col file robots.txt
Inoltre, il file robots.txt può essere utilizzato per evitare che il sito venga penalizzato a causa di contenuti duplicati. Ad esempio, se il sito include pagine che sono esattamente uguali ad altre pagine presenti su Internet, il proprietario del sito potrebbe utilizzare un file robots.txt per impedire agli spider dei motori di ricerca di indicizzare queste pagine, evitando così la penalizzazione per contenuti duplicati.
Struttura di un file robots.txt

Un file robots.txt è composto da una o più linee di “User-agent” e da una o più linee di “Disallow”. Ogni “User-agent” specifica uno spider per il quale le regole del file sono valide, mentre ogni “Disallow” specifica una pagina o una sezione del sito che non deve essere visitata dallo spider specificato. Una struttura di base di un file robots.txt può essere così composta:
- Una o più linee di “User-agent”, che specificano gli spider per i quali le regole del file sono valide. Ad esempio:
User-agent: Googlebot
User-agent: Bingbot
- Una o più linee di “Disallow”, che specificano le pagine o le sezioni del sito che non devono essere visitate dallo spider specificato:
Disallow: /private/
Disallow: /tmp/
Robots: esempi pratici di scrittura del file: copia e incolla
Per bloccare tutti gli spider: | User-agent: * Disallow: / |
Bloccare solo uno spider specifico: | User-agent: NomeBot Disallow: / |
Consentire l’accesso a tutte le pagine tranne una specifica: | User-agent: * Disallow: /pagina-specifica/ |
Consentire l’accesso a tutte le pagine tranne diverse pagine specifiche: | User-agent: * Disallow: /pagina-specifica-1/ Disallow: /pagina-specifica-2/ Disallow: /pagina-specifica-3.html |
Consentire l’accesso a una sola pagina: | User-agent: * Disallow: / Allow: /pagina.html |
Impedire agli spider di accedere a tutte le pagine che iniziano con un determinato percorso: | User-agent: * Disallow: /nome-percorso/* |
Impedire agli spider di accedere a una sola pagina: | User-agent: * Disallow: /percorso/nome-pagina.html |
Impedire agli spider di accedere a tutte le pagine, tranne quelle che iniziano con un determinato percorso: | User-agent: * Disallow: / Allow: /percorso-pagine-da-indicizzare/ |
Impedire agli spider di accedere a tutte le pagine tranne quelle che appartengono a un determinato sottodominio: | User-agent: * Disallow: / Allow: /public/ Allow: /blog.example.com/ |
Impedire agli spider di accedere a tutte le pagine tranne quelle che appartengono a un determinato dominio: | User-agent: * Disallow: / Allow: /public/ Allow: /example.com/ |
Impedire agli spider di accedere a tutte le pagine tranne quelle che appartengono a un determinato percorso, ma consentire l’accesso a una pagina specifica: | User-agent: * Disallow: /private/ Allow: /private/important.html |
È importante notare che una linea di “Disallow” vuota, ad esempio “Disallow:”, significa che lo spider può accedere a tutte le pagine del sito. Inoltre, è possibile utilizzare il carattere jolly “” per specificare tutte le pagine che iniziano con un determinato percorso. Ad esempio, “Disallow: /private/” impedirà agli spider di accedere a tutte le pagine che iniziano con “/private/”.
Cosa fare se si riscontrano problemi con il file robots.txt
Se si riscontrano problemi con il file robots.txt, ad esempio se il sito non viene indicizzato correttamente o se vengono bloccati contenuti importanti, è possibile utilizzare gli strumenti per gli sviluppatori dei motori di ricerca per verificare se il file viene interpretato correttamente. Ad esempio, Google offre lo strumento “Google Search Console” che permette di verificare se il file robots.txt viene letto correttamente e se ci sono eventuali problemi di indicizzazione del sito.
Inoltre, è possibile utilizzare il file “meta robots” all’interno delle singole pagine del sito per fornire ulteriori istruzioni agli spider dei motori di ricerca. Ad esempio, il tag “meta robots” può essere utilizzato per impedire l’indicizzazione di una pagina o per specificare il testo della descrizione della pagina che deve essere mostrato nei risultati di ricerca.
Se il file robots.txt viene ignorato dagli spider dei motori di ricerca o se il sito presenta altri problemi di indicizzazione, è possibile contattare il supporto dei motori di ricerca per richiedere assistenza. E’ possibile utilizzare i forum online o rivolgersi a un professionista per una consulenza SEO e così ottenere ulteriore supporto e consigli su come risolvere i problemi.
Suggerimenti per l’utilizzo di un file robots.txt
Utilizzare il file robots.txt in modo efficace può aiutare a ottenere il massimo dall’ottimizzazione del motore di ricerca e a evitare problemi di indicizzazione del sito. Ecco alcuni suggerimenti per ottenere il massimo dal file:
- Utilizza il file robots.txt solo per indicare agli spider dei motori di ricerca le pagine che non devono essere indicizzate. Non utilizzare il file per proteggere le pagine del sito o per nascondere contenuti. Gli spider dei motori di ricerca possono ignorare le istruzioni presenti nei file robots.txt e alcuni possono anche ignorare le regole di accesso.
- Assicurati di utilizzare il file robots.txt solo per le pagine che non devono essere indicizzate. Non utilizzare il file per bloccare pagine che devono essere indicizzate o per limitare l’accesso a determinate sezioni del sito.
- Utilizza il file “meta robots” all’interno delle singole pagine del sito per fornire ulteriori istruzioni agli spider dei motori di ricerca.
- Utilizza gli strumenti per gli sviluppatori dei motori di ricerca per verificare se il file viene interpretato correttamente e se ci sono eventuali problemi di indicizzazione del sito.
- Contatta il supporto dei motori di ricerca o rivolgiti a un esperto SEO se hai bisogno di ulteriore supporto o consigli su come risolvere i problemi con il file robots.txt o alt,