¿Qué es y cómo funciona el archivo robots.txt?

Solo disponible en BuenasTareas
  • Páginas : 3 (648 palabras )
  • Descarga(s) : 0
  • Publicado : 22 de septiembre de 2010
Leer documento completo
Vista previa del texto
¿Qué es y cómo funciona el archivo robots.txt?

Los buscadores tipo google se sirven de robots que les permiten leer una página web, recuperar y guardar su contenido en una base de datos y seguirlos enlaces que tenga a otras páginas web.

Estos programas navegan saltando de enlace a enlace. Su labor es muy útil, ya que permite que estos buscadores tengan resultados que ofrecernos. Perotambién puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots(spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas.

El archivo robots.txt

Cuando un robot visita una página, lo primero que solicita al servidor esel archivo http://www.dominio.com/robots.txt. Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto dela indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorioso páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:

User-agent: * # aplicable a todos
Disallow: / # impide la indexacion de todaslas páginas

En cuanto a la colocacion del archivo robots.txt, sólo puede haber uno en cada sitio web, precisamente en el directorio raiz. Un robot no buscará nunca el archivo robots.txt en unsubdirectorio, por lo que es inútil colocarlo allí.

Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas. El archivo se compondrá de diversas directivasagrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco. Cada sección o grupo de directivas empezará con el campo...
tracking img