Gli spider dei motori di ricerca

Lo spider è un programma che ha come scopo quello di analizzare in maniera automatica i contenuti presenti online per conto di un motore di ricerca.

Lo spider (detto anche web crawler) solitamente acquisisce una copia testuale di tutti i documenti visitati e la inserisce in un indice.

Gli spider dei motori di ricerca si basano su una lista di indirizzi web da visitare fornita dal motore di ricerca.

Durante questa analisi vengono identificati tutti i link presenti in ogni singolo documento (pagina web) che a loro volta vengono aggiunti alla lista di URL da visitare.

Come funzionano gli spider

Quando viene inserita una parola chiave in un motore e avviata la ricerca, viene interrogato il data center più prossimo.

I siti corrispondenti ai nostri criteri sono ordinati e presentati con l’applicazione di alcuni filtri (ad esempio il filtro anti duplicazione, che evita che siano presentate due pagine con un contenuto identico).

Il procedimento di creazione di un indice consta due momenti distinti:

  • Il crawling, ovvero reperimento delle URL e delle informazioni relative da parte dello spider.
  • L’indexing, ovvero l’archiviazione di queste informazioni da parte di un secondo robot chiamato indexer, che le filtra, elabora e archivia in modo distributivo nei vari data center.

Uno tra i più importanti strumenti che usano gli spider è il file robots.txt, che dovrebbe essere sempre presente sui web server attestati su internet, in quanto naturale oggetto di scansione da parte degli spider.

Uno degli spider più conosciuti è lo spider di Google: Googlebot. Lo spider di Bing invece è Bingbot.