Simile a “Sitemap“, questo file Robots.txt è la prima cosa indicizzata da “Crawlers” quando si visita un sito Web.
Ma cos’è? Questo file deve essere inserito nella directory principale, specificata dal server web stesso. Guardando questa estensione di file di .txt, è abbastanza sicuro supporre che sia un file di testo. Il file di testo definisce le autorizzazioni che il “crawler” ha sul sito Web. Ad esempio, quale tipo di “Crawler” è consentito (ad esempio, vuoi che il “Crawler” di Google indicizzi il tuo sito e non quello di MSN). Inoltre, Robots.txt può specificare quali file e directory indicizziamo o al contrario non vogliamo che “Crawler” le indicizzi.
Un markup di base di un Robots.txt è il seguente:
Qui abbiamo alcune parole chiave …
Keyword | Function |
User-agent | Specifica il tipo di “Crawler” che può indicizzare il tuo sito (l’asterisco è un carattere jolly, consentendo a tutti gli “User-agent” |
Allow | Specifica le directory o i file che il “Crawler” può indicizzare |
Disallow | Specificare le directory o i file che il “crawler” non può indicizzare |
Sitemap | Fornisci un riferimento dove si trova la Sitemap, la sitemap riporta come una mappa di cosa vogliamo indicizzare o dare in pasto ai crawlers. |
Supponiamo di voler nascondere directory o file da un “crawler”? Robots.txt funziona su una “lista nera”. In sostanza, se non diversamente specificato, il crawler indicizzerà tutto ciò che può trovare.
In questo caso:
Possiamo stipularlo, come nella figura seguente:
In questo caso:
Sebbene sia possibile effettuare immissioni manuali per ogni estensione di file che non si desidera indicizzare, è necessario fornire la directory in cui si trova e il nome file completo. Immagina se avessi un sito enorme! Impossibile… Ecco dove possiamo usare un po ‘di regexing.
In questo caso: