Cosa sono esattamente i robots.txt?

16 apr, 2015

Condividi su:

I robots.txt sono file di testo memorizzati nella directory principale di un sito web. La loro funzione è quella di indicare quali parti del sito non sono accessibili ai crawler dei motori di ricerca. Sono un ottimo strumento per i webmaster (o in generale per chi gestisce un sito), in quanto offrono la possibilità di dire ai motori di ricerca quali file o pagine del sito possono essere esaminate (ovvero visitate) o meno. 

Come posso creare un file robots.txt? 

Un file robots.txt può essere creato utilizzando un semplice editor di testo e devi assicurarti che venga identificato (e quindi salvato) come "robots.txt". Di seguito sono proposte alcune righe di testo, presenti nel file, che sono sempre scansionate e analizzate dai motori di ricerca. Ogni file robots.txt è composto da due parti: La prima parte è detta "User Agent". Google utilizza diversi user-agent, cioè robot dei motori di ricerca, come Googlebot. Dovresti iniziare a scrivere un testo robots.txt partendo con la sintassi "User-agent": *", un comando che in pratica comunica a tutti i web crawler di seguire le successive righe. Nella seconda parte, invece, puoi definire cosa vuoi che sia letto o meno grazie ai comandi allow e disallow. Questo permetterà ai robot di eseguire la scansione di una pagina o meno. Si dovrebbe iniziare questa riga con la sintassi "Disallow: /", il che significa che i robot elencati non possono leggere nessun file o pagina. 

Come appare un file robots.txt? 

Generalmente un file robots.txt contiene 2 righe, la cui sintassi permette a tutti i robot di ricerca di scansionare e leggere i file e le pagine del tuo sito web. 

# Libero accesso al tuo sito: 

User-agent: * 

Disallow: 

L'esempio successivo, invece, mostra il contenuto di un file robots.txt che non permette a nessun motore di ricerca di leggere i file e le pagine del tuo sito (e, di conseguenza, di non apparire sui motori di ricerca): 

# Sito web chiuso ai motori di ricerca: 

User-agent: * 

Disallow: / 

L'accesso a determinati file o pagine può essere negato usando la seguente sintassi: 

User-agent: * 

Disallow: /notizie/ 

Disallow: /quotidiano.html 

Al fine di negare l'accesso al tuo sito solo per alcuni robot dei motori di ricerca, è necessario indicare ognuno di essi nella prima parte "User Agent": 

User-agent: Googlebot 

Disallow: / 

Puoi anche usare il comando Allow per specificare quale file o pagina vuoi che sia letta e quindi scansionata dai motori di ricerca: 

User-agent: Googlebot 

Disallow: /cartella1/ 

Allow: /cartella1/esempiodati.html 

A quale contenuto può negare l'accesso un file robots.txt? 

Un file robots.txt può essere usato per impedire che qualsiasi pagina del tuo sito venga indicizzata dai motori di ricerca e fare in modo che nessuna di esse venga visualizzata nei risultati. Per esempio, vorresti che la galleria delle immagini non venga mostrata nei risultati di ricerca di Google. 

Nel file robots.txt, puoi anche specificare dove è situata la mappa del tuo sito (ovvero sitemap). 

User-Agent: * 

Disallow: 

Sitemap: http://www.tuositoweb.com/sitemap.xml 

Lo stesso vale per video e immagini della sitemap. 

User-Agent: * 

Disallow: 

Sitemap: http://www.iltuositoweb.com/sitemap.xml 

Sitemap: http://www.iltuositoweb.com/video-sitemap.xml 

Sitemap: http://www.iltuositoweb.com/immagini-sitemap.xml 

5 cose da sapere su robots.txt 

  1. Trovi il file robots.txt sempre nella directory principale del tuo sito (lo stesso posto dove trovi i file index.php o index.html). I motori di ricerca, quando arrivano al tuo sito, controllano per prima cosa il file robots.txt. 
  2. La maggior parte dei robot dei motori di ricerca controlla le istruzioni presenti nel file robots.txt 
  3. Può accadere che pagine o file disabilitati finiscano comunque nei risultati dei motori di ricerca. Ciò può accadere se ci sono link esterni che portano a quelle pagine, ecco perché il motore di ricerca può trovare quelle pagine disabilitate. 
  4. Importante: Fai molta attenzione quando crei o modifichi il tuo file robots.txt. Un errore banale o di distrazione, può fare in modo che l'intero sito web non venga letto e indicizzato dai motori di ricerca. Questo ha ripercussioni negative sul posizionamento. 
  5. Grazie allo Strumento per i Webmaster di Google, puoi controllare se hai creato correttamente il tuo file robots.txt e verificare così che non ci siano errori.

Condividi su:

Book_image

Scarica questo eBook GRATUITO 36 strategie essenziali di marketing digitale per far crescere la tua azienda

Impara tutto ciò che devi sapere per portare il tuo marketing al livello successivo. Porta la tua attività sulla strada del successo!

download_iconScarica gratis il PDF

X