Simile a “Sitemap“, questo file Robots.txt è la prima cosa indicizzata da “Crawlers” quando si visita un sito Web.

Ma cos’è? Questo file deve essere inserito nella directory principale, specificata dal server web stesso. Guardando questa estensione di file di .txt, è abbastanza sicuro supporre che sia un file di testo. Il file di testo definisce le autorizzazioni che il “crawler” ha sul sito Web. Ad esempio, quale tipo di “Crawler” è consentito (ad esempio, vuoi che il “Crawler” di Google indicizzi il tuo sito e non quello di MSN). Inoltre, Robots.txt può specificare quali file e directory indicizziamo o al contrario non vogliamo che “Crawler” le indicizzi.

Un markup di base di un Robots.txt è il seguente:

Qui abbiamo alcune parole chiave …

Keyword Function
User-agent Specifica il tipo di “Crawler” che può indicizzare il tuo sito (l’asterisco è un carattere jolly, consentendo a tutti gli “User-agent”
Allow Specifica le directory o i file che il “Crawler” può indicizzare
Disallow Specificare le directory o i file che il “crawler” non può indicizzare
Sitemap Fornisci un riferimento dove si trova la Sitemap, la sitemap riporta come una mappa di cosa vogliamo indicizzare o dare in pasto ai crawlers.

Supponiamo di voler nascondere directory o file da un “crawler”? Robots.txt funziona su una “lista nera”. In sostanza, se non diversamente specificato, il crawler indicizzerà tutto ciò che può trovare.

In questo caso:

  1.  Qualsiasi “Crawler” può indicizzare il sito
  2.  Il “crawler” può indicizzare ogni altro contenuto non contenuto in “/wp-admin/”. I crawler conoscono anche le differenze tra sottodirectory, directory e file. Come nel caso del secondo “Disallow:” (“/ wp-admin /”)
  3. La “Sitemap” è disponibile all’indirizzo http://mywebsite.com/sitemap.xml

E se volessimo solo determinati “crawler” per indicizzare il nostro sito?

Possiamo stipularlo, come nella figura seguente:

In questo caso:

  • 1. Il “Crawler” “Googlebot” è autorizzato a indicizzare l’intero sito (Consenti)
  • 2. Il “crawler” “msnbot” non è autorizzato a indicizzare il sito (Non consentire)

Che ne dici di impedire che i file vengano indicizzati?

Sebbene sia possibile effettuare immissioni manuali per ogni estensione di file che non si desidera indicizzare, è necessario fornire la directory in cui si trova e il nome file completo. Immagina se avessi un sito enorme! Impossibile… Ecco dove possiamo usare un po ‘di regexing.

In questo caso:

  1. Qualsiasi “Crawler” può indicizzare il sito
  2.  Tuttavia, il “crawler” non può indicizzare alcun file che abbia l’estensione .ini all’interno di qualsiasi directory / sottodirectory che utilizza (“$”) del sito.
  3. La “Sitemap” è disponibile all’indirizzo http://mywebsite.com/sitemap.xml
    Perché, ad esempio, vorresti nascondere un file .ini? Bene, file come questo contengono dettagli di configurazione sensibili. Riesci a pensare ad altri formati di file che potrebbero contenere informazioni riservate?