Una vez que una web es accesible por los robots de los buscadores, por defecto se indexarán todos los documentos que ésta contiene. Sin embargo puede ocurrir que tengamos documentos que no nos interese indexar (por ejemplo un aviso legal o una página que aún se encuentra en construcción). Mediante el fichero robots.txt podremos informar a los buscadores de los documentos que queremos bloquear y por tanto no ser indexados por los buscadores.
Robots de los principales buscadores
Cómo antes hemos dicho, el fichero robots.txt nos va a permitir indicar a los robots de los buscadores (también conocidos como rastreadores o arañas), los documentos de nuestra web que no queremos que sean indexados. Estos robots tienen nombre propio. Conozcamos dos de los más importantes:
-
Googlebot: es el robot que Google utiliza para rastrear toda la información de la red. Es capaz de extraer información no sólo de ficheros HTML, sino también de ficheros PDF, XLS y DOC, entre otros.
-
Bingbot: robot de Microsoft utilizado para Bing.
El fichero robots.txt
Se trata de un fichero sencillo de texto y al igual que ocurre con el fichero Sitemap.xml, también debe ubicarse en el directorio raíz del sitio web. Veamos su contenido:
- User-agent: Para especificar a qué robot nos estamos refiriendo. Se puede utilizar el símbolo «*» como comodín para referirnos a todos los robots
User-agent: Googlebot | à Para referirse al robot de Google |
User-agent: bingbot | à Para referirse al robot de Bing |
User-agent: * | à Para referirse a todos los robots |
- Disallow: Para indicar el documento que no quieres indexar:
Disallow: / | à Para indicar que no se indexe ningún documento de la web |
Disallow: /aviso.html | à Para indicar que no se indexe el documento concreto aviso.html |
Disallow: /carpeta1/ | à Para indicar que no se indexe ningún documento del directorio carperta1 |
Por ejemplo, si tenemos una web accesible pero que aún sigue en construcción y no queremos que ningún documento sea indexado por los buscadores, crearemos un fichero robots.txt con el siguiente contenido:
User-agent: * | |
Disallow: / |
Eso sí, mucho cuidado con eliminar esta información una vez la web esté operativa o los documentos nunca serán indexados por los buscadores. Recuerda guardar el fichero «robots.txt» en el directorio raíz de tu web de forma que pueda ser accedido como https://www.tudominio.com/robots.txt
Más información
Si quieres ampliar la información sobre el fichero robots.txt, te recomiendo que visites los siguientes enlaces:
- Cómo bloquear o eliminar páginas con un archivo robots.txt
- Robotstxt.org
- Herramienta online para analizar el fichero robtos.xml de un site
No responses yet