Il file robots.txt
è un piccolo file che si trova nella root (la cartella principale) di Joomla!. Questo file contiene le regole che devono seguire i crawler (detti anche spider) per applicare restrizioni di analisi sulle pagine di un sito internet.
In pratica dice ai motori di ricerca (google, bing, yahoo, ...) quali pagine indicizzare, e quindi quali pagine far comparire come risultato di una ricerca e quali no.
Crawler | Motore di ricerca |
---|---|
Googlebot | |
Fast | Fast - Alltheweb |
Slurp | Inktomi - Yahoo! |
Scooter | Altavista |
Mercator | Altavista |
Ask Jeeves | Ask Jeeves |
Teoma agent | Teoma |
Ia archiver | Alexa - Internet Archive |
Yahoo! Slurp | Yahoo |
Romilda |
Impostando correttamente il file robots.txt
è possibile indicare ai crawlers dei motori di ricerca quali aree del nostro sito web non idicizzare:
Senza robots.txt
Con robots.txt
Una cosa che non tutti sanno è che il file robots.txt va posizionato nella root del nostro sito web, quindi se abbiamo installato Joomla! in una sub-directory dobbiamo spostare questo file nella cartella principale e modificarlo di conseguenza.
Quindi il file deve essere sempre raggiungibile dall'url http://www.miosito.it/robots.txt
(il www è opzionale), altrimenti non avrà alcun effetto.
Cosa fare in caso Joomla! sia installato in una sub-directory?
Per prima cosa capiamo dove abbiamo installato joomla...
Se l'Url che visualizziamo quando andiamo su joomla è del tipo http://www.miosito.it/joomla/
oppure http://miosito.it/portale/
o qualcosa di simile... vuol dire che Joomla è stato installato in una sub-directory, e quaindi dobbiamo spostare il file robots.txt nella root.
Molto probabilmente se accedete via FTP vi troverete una directory chiamata public_html
e al suo interno è presente la directory di cui parlavamo prima con dentro Joomla.
Ci basterà spostare il file all'interno di public_html e modificarlo con un editor testuale (notepad, blocco note vanno bene, MS Word NO!).
In JOOMLA 3.X il file originale contiene una parte di intestazione, seguita da delle regole tipo:
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/
Nel vostro caso, ponendo che la sub-directory si chiama joomla_subdir
, dovranno diventare:
User-agent: * Disallow: /joomla_subdir/administrator/ Disallow: /joomla_subdir/bin/ Disallow: /joomla_subdir/cache/ Disallow: /joomla_subdir/cli/ Disallow: /joomla_subdir/components/ Disallow: /joomla_subdir/includes/ Disallow: /joomla_subdir/installation/ Disallow: /joomla_subdir/language/ Disallow: /joomla_subdir/layouts/ Disallow: /joomla_subdir/libraries/ Disallow: /joomla_subdir/logs/ Disallow: /joomla_subdir/media/ Disallow: /joomla_subdir/modules/ Disallow: /joomla_subdir/plugins/ Disallow: /joomla_subdir/templates/ Disallow: /joomla_subdir/tmp/
Come vietare/permettere a Google di indicizzare le immagini?
Il file robots.txt in JOOMLA 3.X, a differenza della sua versione per JOOMLA 2.5, è impostato per includere la cartella delle immagini.
Ciò significa che le immagini verranno indicizzati da Google e verranno incluse nella ricerca di immagini.
Questa è una funzionalità che solitamente si vorrebbe, in quanto aggiunge un ulteriore livello di visibilità sui motori di ricerca, ma in alcuni casi (es: copyright delle immagini sul sito) è necessario impedire che le immagini vengano indicizzate.
Per modificare questo parametro aprire il file robots.txt e aggiungete una regola che dice:
Disallow: /images/Quando vorrete riabilitare questa funzione (o nel caso di JOOMLA 2.5) vi basterà rimuovere (o commentare anteponendo un #) la riga precedente:
# Disallow: /images/
Come includere la SiteMap?
Se si dispone di un file sitemap.xml
(Ed è molto importante averlo), sarà buona norma includere la seguente regola nel file robots.txt:
Sitemap: http://www.miosito.it/sitemap.xml
Naturalmente, questa linea deve essere personalizzata per il vostro dominio e per la vostra sitemap.
Nel caso di questo sito web, che utilizza il componente Xmap per creare il file Sitemap XML automaticamente la regola viventa:Sitemap: https://razzo.org/index.php?option=com_xmap&view=xml&id=1
E con questo è quasi tutto...
Altre configurazioni sono possibili per impedire a singoli motori di ricerca di accedere a singoli url, e per fare questo vi rimando alla pagina di WikiPedia che spiega in modo esaustivo come fare: http://it.wikipedia.org/wiki/Protocollo_di_esclusione_robot
Inoltre sembrano promettere bene anche le regole Request-rate e Visit-time, che però ad oggi non sono ancora state implementate.
Infine un esempio completo di file robots.txt personalizzato:
# If the Joomla site is installed within a folder such as at # e.g. www.example.com/joomla/ the robots.txt file MUST be # moved to the site root at e.g. www.example.com/robots.txt # AND the joomla folder name MUST be prefixed to the disallowed # path, e.g. the Disallow rule for the /administrator/ folder # MUST be changed to read Disallow: /joomla/administrator/ # # For more information about the robots.txt standard, see: # http://www.robotstxt.org/orig.html # # For syntax checking, see: # http://tool.motoricerca.info/robots-checker.phtml User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ # Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /cartella_privata/ #cartella personale che non va indicizzata # Sitemap Sitemap: https://razzo.org/index.php?option=com_xmap&view=xml&id=1 sitemap: https://razzo.org/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1 # Subdomains Disallow: /sottodominio/ #disabilita l'accesso a una cartella che ospita un sottodominio