{ Il file robots.txt }

The Key... { Disallow robots.txt }

La chiave di casa vostra! Certo, se considerate il vostro sito come una sorta di abitazione, dove potete scegliere chi fare o non far entrare dalla porta... Questa "chiave" la darete a chi di vostro gradimento e potrete decidere se il "visitatore" possa accedere ad ogni stanza o sia limitato ad entrare solo in alcune...
Bando agli aforismi e iniziamo a spiegare cosa è realmente il file robots.txt. Questo è un file molto "rudimentale", come da estensione si deduce il contenuto che è del semplice testo (record) scritto in maniera che gli spider dei motori di ricerca capiscano se possono o meno analizzare i contenuti del nostro sito.
Gli spider o anche crouler, sono dei bot ossia programmi che generano operazioni automatiche scansionano la rete.
I comandi del robots.txt, sono molto semplici e intuitivi, consetire o rifiutare che tradotto in inglese: disallow, questo gestisce il rifiuto all'accesso se invece non dichiariamo nulla diamo il via libera alla lettura di ogni contenuto. Per indicare i percorsi da seguire si usa il classico Slash "/", c'è poca altra sintassi da descrivere che farò con qualche esempio pratico.
Commenterò le "operazioni" direttamente nel codice, per far questo usiamo il simbolo cancelletto "#", gli spider ignoreranno completamente le righe anticipate da quest'ultimo.
Per introdurre questo argomento, nel titolo: Iniziamo dagli "antipodi ": Cos'e` il Robots.txt , ho utilizzato il termine "antipodi", e bene si il robots.txt è il primo "tassello" che può influire significativamente nel posizionamento sui motori di ricerca, vedremo come...

I record:
#Quindi in riga 8 dichiariamo "via libera" a tutti gli spider.
#Invece in riga 10 neghiamo l'accesso a ogni spider.
#È ovvio che un file stilato in questa maniera non ha senso 
#in quanto prima diamo il consenso e poi successivamente lo neghiamo,
#questo vuole esser un esempio...
				
User-agent: *
Disallow: 
User-agent: *
Disallow: /

Semplice vero? Ci sono poche altre cose da sapere e potete iniziare a srivere il vostro robots.txt.
Possiamo anche aprire le "porte" ad uno spider più tosto che ad un'altro in questo modo:

I record:
#Con questa configurazione blocchiamo lo spider di Google sull'accesso della cartella "download"
#ed altrettanto con lo spider di Altavista.
#E con la dichiarazione in riga 10 diamo "via libera" a tutti gli altri spider.
				
User-agent: googlebot
Disallow: /download/
User-agent: scooter
Disallow: /download/
User-agent: *
Disallow:

Concetto importante e fondamentale da "fissare" è che dopo i duepunti del "Disallow" se lasciato "vuoto" (senza alcuna dichiarazione) equivale a dare un consenso allo sider dichiarato nel record precedente "User-agent:". Altresì inserendo lo slash (/) dopo il "Disallow" equivale a: "robots.txt disallow all", praticamente nessuno spider potra analizzare alcun contenuto.

I record:
#Quindi in riga 7 dichiariamo "via libera" a tutti gli spider.
#Invece in riga 9 neghiamo l'accesso a ogni spider.
#È ovvio che un file stilato in questa maniera non ha senso in quanto
#prima diamo il consenso e poi successivamente lo neghiamo, questo vuole esser un esempio...
				
User-agent: *
Disallow: 
User-agent: *
Disallow: /

Per completezza un ulteriore esempio, come bloccare l'accesso ad uno specifico file in una subdirectory.

I record:
#Questo significa che i contenuti del sito sono aperti a TUTTI (*)
#gli spider ma è negato l'accesso ad un solo file nella cartella "private",
#quindi tutti i file contenuti sia nella cartella "download"
#che nella cartella "private" verranno analizzati, tranne il file "file-da-bloccare.html".
				
User-agent: *
Disallow: /download/private/file-da-bloccare.html

Il file robots.txt può influenzare in maniera negativa il posizionamento se usato in maniera errata. Faccio luce su questo aspetto perchè a volte si usa in maniera "smodata". Un esempio scioglie ogni dubbio... Nelle root di un sito web sono presenti delle cartelle che contengono file per il giusto funzionamento dello stesso, ad esempio la cartella che solitamente si nomina "css", contenente i fogli di stile o la cartella "js" atta a contenere file javascript, si "incappa" nel madornale errore di bloccare l'analisi di tali cartelle in quanto si pensa siano file da non far analizzare dai motori di ricerca. Cosa succede se blocchiamo gli spider per queste cartelle? Si generano degli errori 404 perchè comunque l'indirizzo dei su detti file é dichiarato (nella maggior parte dei casi) nel tag head della pagina, quindi nel momento che questi indirizzi vengono analizzati dagli spider, se nel robots.txt abbiamo negato la lettura é palese che abbiamo un risultato di "pagina non trovata" ossia errore 404. Il link esiste ma il file non viene trovato... Di seguito il codice che genera tale errore.

Il file robots.txt:
User-agent: *
Disallow: /css
La pagina web:
<html>
<head>
<!-- Questo file css non verrà trovato perchè bloccato dal record "Disallow: /css" -->
<link rel="stylesheet" type="text/css" href="css/style.css" />
</head>
<body>
ecc...

Questo genera 404, ai fini del SEO è molto penalizzante! Il file robots.txt va inserito necessariamente nella root principale del nostro sito, se non viene inserito non é grave, equivale a consentire l'accesso ad ogni spider e leggere qualsiasi contenuto del sito.
Nel caso state progettando e sviluppando un sito, è fortemente consigliato "chiudere la porta" a tutti. In fase di progetto, oltre che le parti del sito sono incomplete e magari con "strafalci", si fanno delle logiche variazioni e cambiamenti quindi meglio che fin quando non è tutto definitivo o per lo meno i contenuti sono "stabili", si metta un robots.txt che blocchi tutti gli spider altrimenti rischiamo forti penalizzazioni sul posizionamento perché il sito non ha contenuti rilevanti o errati...
Quindi quando iniziamo un progetto, in primis "buttiamo" all'interno della root principale del sito un robots.txt di questo genere:

record:
#Tutti gli spider di ogni motore di ricerca, sono bloccati evitando "false partenze".
User-agent: *
Disallow: /

A titolo informativo cito i principali spider e relativi motori di ricerca:

Principali Spider

Spider (crowler)

Relativi Motori di ricerca

Motori di ricerca

Ora non rimane che mettere a disposizione un tool per generare automaticamente il vostro robors.txt con semplicità

Scegli gli spider abilitandoli ad analizzare il tuo sito, spuntando i checkbox abiliti il singolo spider1. Altrimenti se vuoi abilitarli tutti, anche quelli che non sono in lista, spunta "All."
1 - Nella lista sono riportati i nomi dei motori di ricerca per chiarezza, ma in realtà si sceglierà il relativo spider.

 All

Dopo aver scelto, seleziona il tab "Permessi"

Scegli se estendere i permessi di analizzare tutte le cartelle e tutti i file o bloccare l'analisi di file e cartelle...

Voglio abilitare l'analisi di tutti i file e cartelle
Voglio bloccare l'analisi di tutti i file e cartelle
directory con restrizioni Aggiungi restrizione directory con restrizioni

Ora non rimane che selezionare il tab "OTTIENI IL ROBOTS" per compilare il file

Sei arrivato alla fine del processo

Ora inserisci il tuo indirizzo mail per ricevere il file anche per posta elettronica, all'invio il file robots.txt sarà generato in tempo reale e potrai prelevarlo direttamente da questa posizione. Ti ringrazio di aver utilizato questo strumento.

Siti Web

Da 20 anni Filomeni Maurizio si dedica con passione e tenacia al mondo del web, le sue realizzazioni sono sempre all'avanguardia perchè la sua passione divenuta professione è al passo con i tempi e sempre in fase di studio e ricerca. Grazie ai suoi collaboratori riesce a dedicare il maggior tempo alla programmazione back-end rendendo le applicazioni molto precise e sofisticate. Dopo un attento monitoraggio, Siti Web diventa Partner Partnership di Aruba Group S.p.A

Newsletter & Info

Iscriviti alla nostra newsletter per ricevere aggiornamenti e novità, non riceverai mail indesiderate da parte nostra, odiamo lo spam!


Ti Piace Siti Web?