1. Home
  2. Glosario de Marketing

Robots.txt

¿Qué es el archivo robots.txt?

El archivo robots.txt es un documento donde se indica, a las arañas de indexación de los motores de búsquedas, qué partes de un sitio web pueden se indexadas y proporciona un enlace al XML-sitemap.

Dicho de forma mas sencilla, un archivo robots.txt indica a los rastreadores de los buscadores a qué URLs de un sitio pueden acceder, pero en ninguna caso es un mecanismo que impida que la página sea indexada, pues muchos rastreadores hacen caso omiso a las instrucciones del robots.txt.

Cuando los rastreadores o arañas no hacen caso de la negación de indexación que se les coloca en el robots.txt (que no es otra que noindex), será necesario proteger la página web contraseña que impedir que indexen la web en cuestión.

1. ¿Para qué se usa el archivo robots.txt?

De forma general, el archivo robots.txt es utilizado para dar ordenes concreta y especificas a los rastreadores de los distintos motores de búsqueda. Pero vamos a mostrar algunas funciones más específicas.

  • Controla el acceso a los recursos gráficos. Permiten indicar si se desea impedir que los archivos de imagen de nuestra web aparezcan en los resultados de búsqueda. Siendo de vital importancia, para intentar tomar el control sobre la infográficas e imágenes con información técnica de productos que tengamos. De tal forma que los interesados en dicha información, en primera instancia, solo pueden acceder a ella visitando nuestra web.
  • Restringe el acceso a ciertas páginas web. Los sitios web están formados por múltiples páginas, resultando interesante poder restringir la indexación de páginas que no son interesantes que aparezcan en los resultados de búsqueda. Existen muchos motivos para ello, generalmente es para que las visitas del los rastreadores no influyan negativamente en el rendimiento de nuestro servidor web y para trabajar el posicionamiento SEO (evitando posicionar contenido que no interesa y centrar los esfuerzos en dar relevancia al que si interesa posicionar).
  • Bloquear el acceso a los archivos y directorios. Es de gran utilidad para evita que los rastreadores metan la nariz en los directorios y archivos que solo son recursos para el correcto funcionamiento del sitio web, contienen información que es exclusiva para ciertos usuarios o simplemente es contenido duplicado.

2. ¿Cómo crear un archivo robots.txt?

Si bien, cualquier instalación por defecto de un CMS, como WordPress crea por defecto un archivo robots.txt, pueden crearse fácilmente para ello haciendo uso de un editor de text plano se debe de crear un archivo de texto plano en formato ASCII o UTF-8, para colocar en su interior las instrucciones de indexación deseadas.

Justo a continuación vamos a mostrar algunas de los comandos o instrucciones de uso mas común en los robots.txt.

3. Comando de robots.txt

Los comandos que más asiduidad se utilizan en el documento robots.txt son:

User-agent:, también llamado agente de usuario, se usa para indicar a cada robots o arañas de los motores de búsqueda, lo que se desea de ellos. Es importante destacar que las instrucciones para cada uno de los rastreadores se realizan juntas, es decir se usa una sola instancia para Googlebot (Google search engine) para indicarle lo que se le permite o no hacer.

Su sintaxis básica es:

  • User-agent: [robot concreto al que indicare las reglas]
  • Disallow: indica al robot que no debe acceder, ni indexar una URL, subdirectorio o directorio en concreto.
  • Disallow: [directorio que se desea bloquear]
  • Allow: justo lo contrario a Disallow:, en este caso se indicas al user-agente una URL, subdirectorio o directorio al que si debe acceder e indexar.

4. Ejemplos para robots.txt

Aquí tienes algunos ejemplos de los bots o agentes de los principales buscadores:

  • Googlebot (Google search engine)
  • Googlebot-Image (Google-image search)
  • Adsbot-Google (Google AdWords)
  • Slurp (Yahoo)
  • bingbot (Bing)

Con ello vamos a poner algunos ejemplos de líneas que podemos colocar en robots.txt y la utilidad de cada una:

  • Todos los agentes tienen prohibido acceder a esos directorios/archivos:

User-agent: \\\*

Disallow: /wp-admin/

Disallow: /temp/

Disallow: /precios.shtml

  • Bloquear todas las imágenes del sitio web a Googlebot-Image :

User Agent: Googlebot-Image

Disallow: /

  • Bloquear todos los archivos PDF a Googlebot:

User-agent: Googlebot

Disallow: /\\\*.pdf$