Robots.txt: Qué es y cómo funciona

16 marzo, 2014

Una vez que una web es accesible por los robots de los buscadores, por defecto se indexarán todos los documentos que ésta contiene. Sin embargo puede ocurrir que tengamos documentos que no nos interese indexar (por ejemplo un aviso legal o una página que aún se encuentra en construcción). Mediante el fichero robots.txt podremos informar a los buscadores de los documentos que queremos bloquear y por tanto no ser indexados por los buscadores.

Robots de los principales buscadores

Cómo antes hemos dicho, el fichero robots.txt nos va a permitir indicar a los robots de los buscadores (también conocidos como rastreadores o arañas), los documentos de nuestra web que no queremos que sean indexados. Estos robots tienen nombre propio. Conozcamos dos de los más importantes:

Googlebot: es el robot que Google utiliza para rastrear toda la información de la red. Es capaz de extraer información no sólo de ficheros HTML, sino también de ficheros PDF, XLS y DOC, entre otros.
Bingbot: robot de Microsoft utilizado para Bing.

El fichero robots.txt

Se trata de un fichero sencillo de texto y al igual que ocurre con el fichero Sitemap.xml, también debe ubicarse en el directorio raíz del sitio web. Veamos su contenido:

User-agent: Para especificar a qué robot nos estamos refiriendo. Se puede utilizar el símbolo «*» como comodín para referirnos a todos los robots

User-agent: Googlebot	à Para referirse al robot de Google
User-agent: bingbot	à Para referirse al robot de Bing
User-agent: *	à Para referirse a todos los robots

Disallow: Para indicar el documento que no quieres indexar:

Disallow: /	à Para indicar que no se indexe ningún documento de la web
Disallow: /aviso.html	à Para indicar que no se indexe el documento concreto aviso.html
Disallow: /carpeta1/	à Para indicar que no se indexe ningún documento del directorio carperta1

Por ejemplo, si tenemos una web accesible pero que aún sigue en construcción y no queremos que ningún documento sea indexado por los buscadores, crearemos un fichero robots.txt con el siguiente contenido:

User-agent: *
Disallow: /

Eso sí, mucho cuidado con eliminar esta información una vez la web esté operativa o los documentos nunca serán indexados por los buscadores. Recuerda guardar el fichero «robots.txt» en el directorio raíz de tu web de forma que pueda ser accedido como https://www.tudominio.com/robots.txt

Más información

Si quieres ampliar la información sobre el fichero robots.txt, te recomiendo que visites los siguientes enlaces:

Comparte este artículo si te gustó:

Tags:

SEO SEO on-page

No responses yet

Deja una respuesta Cancelar la respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

BLOG

Robots de los principales buscadores

El fichero robots.txt

Más información

No responses yet

Deja una respuesta Cancelar la respuesta