Stampa

Personalizare il file robots.txt

Postato in Tips & Tricks

Robot.TXTIl file robot.txt è un piccolo file che si trova nella root (la cartella principale) di Joomla. Questo file contiene le regole che devono seguire i crawler (detti anche spider) per applicare restrizioni di analisi sulle pagine di un sito internet.
In pratica dice ai motori di ricerca (google, bing, yahoo, ...) quali pagine indicizzare, e quindi quali pagine far comparire come risultato di una ricerca e quali no.

Una cosa che non tutti sanno è che il file robot.txt va posizionato nella root del nostro sito web, quindi se abbiamo installato Joomla in una sub-directory dobbiamo spostare questo file nella cartella principale e modificarlo di conseguenza.
Quindi il file deve essere sempre raggiungibile dall'url http://www.miosito.it/robot.txt, altrimenti non avrà alcun effetto.

Cosa fare in caso Joomla sia installato in una sub-directory:

Per prima cosa capiamo dove abbiamo installato joomla...
Se l'Url che visualizziamo quando andiamo su joomla è del tipo http://www.miosito.it/joomla/ oppure http://www.miosito.it/portale/ o qualcosa di simile... vuol dire che Joomla è stato installato in una sub-directory, e quaindi dobbiamo spostare il file robot.txt nella root.
Molto probabilmente se accedete via FTP vi troverete una directory chiamata public_html e al suo interno è presente la directory di cui parlavamo prima con dentro Joomla.
Ci basterà spostare il file all'interno di public_html e modificarlo con un editor testuale.

Il file originale contiene delle regole tipo:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Nel vostro caso,ponendo che la sub-directory si chiama joomla_subdir, dovrà diventare:

User-agent: *
Disallow: /joomla_subdir/administrator/
Disallow: /joomla_subdir/cache/
Disallow: /joomla_subdir/cli/
Disallow: /joomla_subdir/components/
Disallow: /joomla_subdir/images/
Disallow: /joomla_subdir/includes/
Disallow: /joomla_subdir/installation/
Disallow: /joomla_subdir/language/
Disallow: /joomla_subdir/libraries/
Disallow: /joomla_subdir/logs/
Disallow: /joomla_subdir/media/
Disallow: /joomla_subdir/modules/
Disallow: /joomla_subdir/plugins/
Disallow: /joomla_subdir/templates/
Disallow: /joomla_subdir/tmp/

Come permettere a Google di indicizzare anche le immagini:

Il file robots.txt di default in Joomla è impostato per escludere la cartella immagini. Ciò significa che le immagini non verranno indicizzati da Google e non verranno incluse nella ricerca di immagini.
Questa è una funzionalità che si vorrebbe, in quanto aggiunge un ulteriore livello di visibilità sui motori di ricerca.

Per modificare questo, aprire il file robots.txt e rimuovere (o commentare, precedendo da #) la riga che dice:

Disallow: /images/

Come includere la SITEMAP:

Se si dispone di un file sitemap.xml (Ed è molto importante averlo), sarà buona norma includere la seguente riga nel file robots.txt:

Sitemap: http://www.miosito.it/sitemap.xml

Naturalmente, questa linea deve essere personalizzata per il vostro dominio e per la vostra sitemap.

Nel mio caso, io uso il componente Xmap per creare il file Sitemap XML automaticamente.
E quindi la mia riga diventa:

Sitemap: http://razzo.org/index.php?option=com_xmap&view=xml&id=1

 

Direi con questo è tutto...
Altre configurazioni sono possibili per impedire a singoli motori di ricerca di accedere a singoli url, e per fare questo vi rimando alla pagina di WikiPedia che spiega in modo esaustivo come fare: http://it.wikipedia.org/wiki/Protocollo_di_esclusione_robot#Esempi

Infine vi lascio con un esempio di Robot.TXT:

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
# Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Disallow: /cartella_privata/ #cartella personale che non va indicizzata

# Sitemap
sitemap: http://razzo.org/index.php?option=com_xmap&view=xml&id=1
sitemap: http://razzo.org/index.php?option=com_xmap&view=xml&id=2
sitemap: http://razzo.org/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1

# Subdomains
Disallow: /sottodominio/ #disabilita l'accesso a una cartella che ospita un sottodominio
Artisteer - Web Design Generator