Google è probabilmente l’esempio più famoso di “Motori di ricerca“, ora potrebbe essere piuttosto condiscendente spiegare come funzionano questi “motori di ricerca“, ma c’è molto di più dietro le quinte di quello che vediamo. Nonostante guru cercano di spigarlo, il motore di ricerca google cambia molto spesso.
Ancora più importante, possiamo sfruttare questo a nostro vantaggio per trovare tutti i tipi di cose che un elenco di parole che ci aiuta a filtrare i risultati come vogliamo. La ricerca nel suo insieme, specialmente nel contesto della sicurezza informatica, incapsula molto del lavoro che fà l’esperto di sicurezza.
I “motori di ricerca” come Google sono grandi indicizzatori, in particolare indicizzatori di contenuti diffusi nel web. Questi elementi essenziali nella navigazione in Internet utilizzano “Crawlers” o “Spiders” per cercare questi contenuti nel World Wide Web, .
Questi crawler scoprono il contenuto in vari modi. Uno è per pura voglia di discovery del web, in cui un crawler visita le pagine del web, URL e le informazioni relative al tipo di contenuto del sito. In effetti, ci sono molte informazioni che i moderni crawler scoprono, ma discuteremo di come verrà utilizzato in seguito. Un altro metodo utilizzato dai crawler per
Tuttavia, come accennato in precedenza, i crawler tentano di attraversare ogni URL e file che riescono a trovare dipende anche dalla configurazioni dell’applicazione o del server. Il crawler tenterà quindi di attraversare tutto su quell’URL (zeroesperto.com) e recuperare il contenuto di tutto all’interno di quel dominio.. quindi immaginiamo di avere file critici o configurazioni errate del sever. A quel punto saranno indicizzati in rete!
La scansione e l’indicizzazione sono due cose distinte e questo è comunemente frainteso nel settore SEO. La scansione indica che Googlebot esamina tutti i contenuti e codice sulla pagina e li analizza. L’indicizzazione indica che la pagina è idonea a essere visualizzata nei risultati di ricerca di Google.
Se a Google è consentito eseguire la scansione di una pagina, può entrare nella pagine e guardare effettivamente ciò che è all’interno (scansione). Una volta all’interno nella pagina, potrebbe esserci un cartello che dice che è autorizzato a mostrare a tutti la risorsa (in grado di indicizzare; la pagina viene visualizzata in SERP), oppure potrebbe indicare che non gli è permesso mostrare la pagina alla gente (“noindex” tag), NON verrà visualizzato nelle SERP poiché gli è stato chiesto di non mostrarla). Se è bloccato dalla scansione di una pagina (diciamo che c’è un cartello che dice “Google, non entrare qui”), allora non entrerà e andrà altrove, e per questo motivo.