Sono entrati a far parte della nostra vita quotidiana e tuttavia, i motori di ricerca restano un mistero per la maggior parte delle persone. Vengono usati ogni giorno e solo in Google avvengono oltre 3,5 miliardi di ricerche al giorno.
Lo scrivere una domanda e ricevere una risposta nell’arco di pochi secondi può creare dipendenza e trasformarsi facilmente in una parte abituale della tua vita. Come fa questo strumento a trovare i tuoi risultati e a presentarteli così in fretta? Queste sono solo alcune delle molte domande da farsi sui motori di ricerca, e sulle tecniche al lavoro dietro le quinte.
Per offrirti risultati per le tue ricerche, ci devono essere i così detti “crawler” o “spider”. Questi sono termini generici per gli Internet Bot il cui ruolo è di visitare diverse pagine web e prendere nota dei loro contenuti. Questi programmi usano i link per spostarsi da un sito all’altro. Visitano diverse pagine pubbliche e inviano ai loro server i dati raccolti. Ciò non è possibile con quelle pagine che hanno specificato di non voler essere esaminate dai crawler, cioè le pagine che fanno parte del dark web (o deep web). Queste pagine sono listate come “noindex”, il che fa sì che i motori di ricerca le saltino durante l’indicizzazione e sono pertanto tenute fuori dai database.
L’indicizzazione è il processo che permette alle tue ricerche di ricevere una risposta così rapida. Dopo che i crawler hanno finito di visitare tramite i link vari siti web, li salvano nei server aggiungendo l’URL in un indice.
Sono richieste enormi quantità di memoria per immagazzinare tutte queste informazioni e, per esempio nel caso di Google, i suoi server raggiungono oltre 100.000.000 Gigabytes di grandezza. Per rendere l’idea, l’1% di ciò corrisponde a circa 10.000 ore di televisione. Si tratta di un’incredibile quantità di informazioni che continua a crescere e crescere e stiamo comunque parlando di un solo motore di ricerca.
L’indicizzazione è solo una parte del processo e c’è n'è ancora un altro che si pone fra i database e i risultati offerti. Questo processo si chiama retrieval e cambia in base al motore di ricerca usato ed è per questo che i risultati non sono sempre gli stessi. Ci sono una serie di criteri usati per scegliere quali pagine web siano la migliore risposta a ciò che cerchi. Questi algoritmi comparano miliardi di pagine diverse nel tentativo di capire quali ti possano soddisfare meglio. Ciò viene fatto verificando se le tue parole chiave sono presenti nel titolo, se sono una di fianco all’altra, quante pagine sono collegate a essa o in che ordine hai effettuato la ricerca. Il metodo usato da ciascun algoritmo non viene mai rivelato nella sua interezza. Se così fosse, le persone ne trarrebbero vantaggio per ottenere migliori risultati. Tale situazione si verificava in passato, quando i motori di ricerca posizionavano siti web in base alla frequenza con cui usavano le parole chiave, motivo per cui è nato il termine “keyword stuffing”.
Ed è qui che le cose si fanno interessanti: il programma che genera i risultati usa l’apprendimento automatico. In teoria, ciò vuol dire che durante l’analisi continua delle pagine, questi risultati diventano sempre più precisi, fino a comprendere addirittura il significato sottinteso di una parola. Tuttavia, il metodo più efficace per effettuare una ricerca non è digitando una domanda nella barra della ricerca. Per esempio, al posto di digitare “Come cucino della cioccolata degna di un premio?”, faresti meglio ad effettuare la ricerca in base alle sole parole chiave: “cucinare”, “cioccolata”, “da premio”. Questo rende il lavoro dei bot molto più semplice e dà risultati che meglio si adattano alle parole chiave usate.
Dopo che il motore di ricerca sceglie i risultati migliori sulla base del metodo che ritiene più adatto, li organizza in ordine di importanza. Questo è chiamato ranking e in Google si chiama Page rank (dal nome del suo inventore, Larry Page). Questo processo è simile a quello con cui le pagine vengono trovate, sulla base dell’ordine, della frequenza e della qualità delle parole chiave, anche se questi sono ovviamente solo alcuni dei fattori che influenzano il posizionamento dei siti. Questo posizionamento può essere migliorato tramite la SEO (Search Engine Optimization in inglese - ottimizzazione per i motori di ricerca), che può dare un buon vantaggio rispetto ai propri concorrenti se fatta correttamente. La SEO si compone di un insieme di tecniche, dall’ottimizzazione delle parole chiave alla creazione di link, e tutte queste tecniche sono ugualmente importanti. L’algoritmo usato da Google tiene in considerazione più 200 criteri per determinare il posizionamento dei risultati.