Il file robots.txt è un piccolo file che si trova nella root (la cartella principale) di Joomla!. Questo file contiene le regole che devono seguire i crawler (detti anche spider) per applicare restrizioni di analisi sulle pagine di un sito internet. In pratica dice ai motori di ricerca (google, bing, yahoo, ...) quali pagine indicizzare, e quindi quali pagine far comparire come risultato di una ricerca e quali no.

Crawler Motore di ricerca
Googlebot Google
Fast Fast - Alltheweb
Slurp Inktomi - Yahoo!
Scooter Altavista
Mercator Altavista
Ask Jeeves Ask Jeeves
Teoma agent Teoma
Ia archiver Alexa - Internet Archive
Yahoo! Slurp Yahoo
Romilda Facebook

Impostando correttamente il file robots.txt è possibile indicare ai crawlers dei motori di ricerca quali aree del nostro sito web non idicizzare:

Senza robots.txt

Senza robots.txt

Con robots.txt

Con robots.txt

Una cosa che non tutti sanno è che il file robots.txt va posizionato nella root del nostro sito web, quindi se abbiamo installato Joomla! in una sub-directory dobbiamo spostare questo file nella cartella principale e modificarlo di conseguenza.
Quindi il file deve essere sempre raggiungibile dall'url http://www.miosito.it/robots.txt (il www è opzionale), altrimenti non avrà alcun effetto.

Cosa fare in caso Joomla! sia installato in una sub-directory?

Per prima cosa capiamo dove abbiamo installato joomla...
Se l'Url che visualizziamo quando andiamo su joomla è del tipo http://www.miosito.it/joomla/ oppure http://miosito.it/portale/ o qualcosa di simile... vuol dire che Joomla è stato installato in una sub-directory, e quaindi dobbiamo spostare il file robots.txt nella root.
Molto probabilmente se accedete via FTP vi troverete una directory chiamata public_html e al suo interno è presente la directory di cui parlavamo prima con dentro Joomla.
Ci basterà spostare il file all'interno di public_html e modificarlo con un editor testuale (notepad, blocco note vanno bene, MS Word NO!).

In JOOMLA 3.X il file originale contiene una parte di intestazione, seguita da delle regole tipo:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Nel vostro caso, ponendo che la sub-directory si chiama joomla_subdir, dovranno diventare:

User-agent: *
Disallow: /joomla_subdir/administrator/
Disallow: /joomla_subdir/bin/
Disallow: /joomla_subdir/cache/
Disallow: /joomla_subdir/cli/
Disallow: /joomla_subdir/components/
Disallow: /joomla_subdir/includes/
Disallow: /joomla_subdir/installation/
Disallow: /joomla_subdir/language/
Disallow: /joomla_subdir/layouts/
Disallow: /joomla_subdir/libraries/
Disallow: /joomla_subdir/logs/
Disallow: /joomla_subdir/media/
Disallow: /joomla_subdir/modules/
Disallow: /joomla_subdir/plugins/
Disallow: /joomla_subdir/templates/
Disallow: /joomla_subdir/tmp/

Come vietare/permettere a Google di indicizzare le immagini?

Il file robots.txt in JOOMLA 3.X, a differenza della sua versione per JOOMLA 2.5, è impostato per includere la cartella delle immagini.
Ciò significa che le immagini verranno indicizzati da Google e verranno incluse nella ricerca di immagini.
Questa è una funzionalità che solitamente si vorrebbe, in quanto aggiunge un ulteriore livello di visibilità sui motori di ricerca, ma in alcuni casi (es: copyright delle immagini sul sito) è necessario impedire che le immagini vengano indicizzate.
Per modificare questo parametro aprire il file robots.txt e aggiungete una regola che dice:

Disallow: /images/
Quando vorrete riabilitare questa funzione (o nel caso di JOOMLA 2.5) vi basterà rimuovere (o commentare anteponendo un #) la riga precedente:
# Disallow: /images/

Come includere la SiteMap?

Se si dispone di un file sitemap.xml (Ed è molto importante averlo), sarà buona norma includere la seguente regola nel file robots.txt:

Sitemap: http://www.miosito.it/sitemap.xml

Naturalmente, questa linea deve essere personalizzata per il vostro dominio e per la vostra sitemap.

Nel caso di questo sito web, che utilizza il componente Xmap per creare il file Sitemap XML automaticamente la regola viventa:
Sitemap: https://razzo.org/index.php?option=com_xmap&view=xml&id=1

E con questo è quasi tutto...
Altre configurazioni sono possibili per impedire a singoli motori di ricerca di accedere a singoli url, e per fare questo vi rimando alla pagina di WikiPedia che spiega in modo esaustivo come fare: http://it.wikipedia.org/wiki/Protocollo_di_esclusione_robot
Inoltre sembrano promettere bene anche le regole Request-rate e Visit-time, che però ad oggi non sono ancora state implementate.

Infine un esempio completo di file robots.txt personalizzato:

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://tool.motoricerca.info/robots-checker.phtml

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
# Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Disallow: /cartella_privata/	#cartella personale che non va indicizzata

# Sitemap
Sitemap: https://razzo.org/index.php?option=com_xmap&view=xml&id=1
sitemap: https://razzo.org/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1

# Subdomains
Disallow: /sottodominio/	#disabilita l'accesso a una cartella che ospita un sottodominio

Google+

Questo sito utilizza anche cookie di profilazione al fine di inviare comunicazioni pubblicitarie personalizzate e consente anche l'invio di cookie di "terze parti" (impostati da un sito web diverso da quello visitato).
Chiudendo questo banner o cliccando su un qualunque elemento della pagina si accetta l'utilizzo dei cookie. E' possibile consultare l'informativa alla sezione dedicata.