Il file robots.txt è un piccolo documento di testo che vive alla radice di un sito web e funge da semaforo per i crawler dei motori di ricerca. In pratica, indica quali aree di un sito possono essere esplorate e quali invece devono restare fuori dal radar. Non è un muro invalicabile, ma piuttosto un cartello di cortesia rivolto ai bot.
Perché conta
In un progetto digitale il robots.txt ha un peso enorme perché indirizza l’attenzione di Google e soci solo sui contenuti davvero utili. Un sito senza regole rischia di far sprecare tempo ai crawler su pagine irrilevanti, come pannelli di amministrazione o versioni duplicate di contenuti, con il risultato di diluire la forza delle pagine che invece contano. È come invitare ospiti a casa e lasciarli vagare in garage o in soffitta invece che portarli in salotto.
Come si applica in un progetto web
Quando una web agency imposta un nuovo sito, il file robots.txt è uno degli strumenti che permette di dare subito ordine. Si decide cosa aprire ai motori di ricerca e cosa no, così da guidare la scansione e garantire che la mappa del sito venga letta correttamente. Per esempio, si può impedire l’accesso a cartelle di test o a pagine temporanee. In un e‑commerce, si può evitare che i crawler perdano tempo su centinaia di combinazioni di filtri inutili.
Massimizzare il robots.txt
Un’agenzia esperta sa che il robots.txt non è solo un file tecnico da compilare e dimenticare. Va aggiornato in base all’evoluzione del sito. Se cambia la struttura delle cartelle, se si aggiunge una sezione blog o se si decide di pubblicare un’area riservata, il file deve essere rivisto. Inoltre, può contenere il riferimento alla sitemap, così da rendere più semplice la vita ai motori di ricerca. È un piccolo gesto, ma aumenta la probabilità che le pagine importanti vengano visitate e indicizzate più velocemente.
Errori da evitare
Il più classico è bloccare per sbaglio l’intero sito. Basta una riga scritta male e Google non vedrà più nulla. Altro errore frequente è pensare che il robots.txt serva a nascondere informazioni sensibili: non è così. Se un file è pubblico sul server, chiunque può raggiungerlo, anche se il robots.txt dice “non entrare”. Infine, un problema comune è dimenticarsi di aggiornarlo dopo modifiche strutturali, lasciando crawler e utenti con indicazioni sbagliate.
Esempio pratico
Immaginiamo un sito di ricette. L’agenzia decide di bloccare la cartella “/bozze/” dove vengono salvati gli articoli ancora in lavorazione. Nel robots.txt comparirà una regola semplice che dice ai crawler di non esplorare quella parte. Allo stesso tempo, il file rimanderà alla sitemap per segnalare le ricette già pubblicate. Il risultato è un sito più pulito agli occhi dei motori di ricerca e un lavoro di indicizzazione più rapido ed efficace.