robots-txt

Robots.txt a cosa serve e come si utilizza

In Realizzazione siti web, aggiornamenti e news da Massimiliano Di Nicola

Want create site? Find Free WordPress Themes and plugins.

Il file robots.txt è un file di testo che va inserito nella root (cartella principale) del nostro sito web, ha una sintassi molto semplice e comprensibile e serve per impartire direttive (istruzioni) ai bot o crawler.

Con il robots.txt possiamo consentire o meno ai bot l’indicizzazione di contenuti web relativi al nostro sito.
La collocazione del robot.txt per un dominio o un sotto-dominio di solito è la seguente:

http://www.tuosito.it/robots.txt
http://blog.tuosito.it/robots.txt

Le regole che andremo a scrivere nel robots.txt verranno considerate valide solamente per tutti gli indirizzi che hanno lo stesso dominio, lo stesso host, stesso protocollo e stesso numero di porta.

Robots.txt | la sintassi

La sintassi del robots.txt è molto semplice, non è Case-Sensitive e viene considerata dalla gran parte dei robot esistenti ad oggi. C’è però da fare un considerazione ben precisa, le regole che andiamo a scrivere non rappresentano obbligazioni per i bot, infatti potrebbe esserci uno o più bot che potrebbero scansionare e indicizzare i vostri contenuti ma di norma vengono rispettate, si intendono infatti queste regole vengono considerate più come direttive che andiamo a dare ai crawler.

I principali comandi che possiamo inserire all’interno del robots.txt sono 4, e le istruzioni devono essere scritte una per riga.

User-agent:
Allow:
Disallow:
# commento
  • user-agent: questo comando ci permette di impartire le nostre direttive ad uno o più bot. Per impartire le direttive a tutti i bot si utilizza il simbolo WildCard (ovvero asterisco) *volendo invece applicare le regole solamente al bot di google ad esempio scriveremo googlebot. In questo modo, la serie di istruzioni che scriveremo di seguito verrà impartita solo al bot di google.
  • Allow: questo comando consente espressamente l’accesso alla risorsa specificata.
  • Disallow: blocca l’accesso della risorsa specificata.
  • # il cancelletto è il simbolo che deve precedere sempre i nostri commenti all’ interno del robots.txt e va ripetuto uno per ogni riga di commento che inseriamo. Es:
    # commento1
    #commento2
    #commento3

Robots.txt | le caratteristiche

Quando impartiamo le nostre direttive in questo file dobbiamo sapere che di default è impostato tutto in Allow e questa espressione non viene considerata sempre valida da tutti bot. Al contrario, il comando Disallow è invece rispettato e seguito da tutti i bot esistenti.

Una delle caratteristiche principali consiste nel metodo di lettura di questo file da parte del bot. La lettura (scansione) non viene effettuata a “caduta” ovvero dall’alto verso il basso, ma avendo ad esempio due regole discordanti tra loro,  il bot eseguirà sempre quella più lunga a livello di numero di caratteri presenti dopo il comando Allow o Disallow.

Se abbiamo espressamente scritto un blocco di regole per un bot specifico, questo prenderà in considerazione solamente il codice a lui dedicato

Per aggiornamenti post vi prego di scrivere nei commenti, questo articolo rappresenta solamente la pura base strutturale del robot.txt, ma vi consiglio la visione completa del video per avere esempi e chiarimenti più dettagliati.

Robots.txt | alcuni esempi per wordpress

User-agent: *
disallow: /wp-admin

Questo file consente l’accesso al tuo sito a tutti i crawler ma non permette l’indicizzazione di tutta la parte amministrativa.

User-agent: *
sitemap: http://inserisci-qui-il-tuo-domino.estensione/sitemap_index.xml
disallow: /wp-admin

Questo file consente l’accesso al tuo sito a tutti i crawler ma non permette l’indicizzazione di tutta la parte amministrativa e fornisce al bot la posizione assoluta della tua sitemap. Ricorda di inserire l’indirizzo fisico della tua sitemap non quello relativo alla path.

Did you find apk for android? You can find new Free Android Games and apps.

Commenti

commenti