El archivo robots.txt es una herramienta fundamental para gestionar cómo los motores de búsqueda (Google, Bing…) interactúan con tu sitio web. Aunque pueda parecer técnico, su comprensión y correcta implementación es accesible para cualquier persona que administre una página web, incluso sin conocimientos profundos en SEO técnico.
¿Qué es un archivo robots.txt?
El archivo robots.txt es un documento de texto simple ubicado en la raíz de tu sitio web que proporciona instrucciones a los rastreadores de los motores de búsqueda sobre qué partes de tu sitio pueden o no pueden ser rastreadas. Funciona como una guía que orienta a estos "robots" en su proceso de exploración e indexación de contenido. La rastreabilidad e indexación de una web son dos puntos clave para poder aparecer en Google, así que, toma nota porque si estás leyendo esto es porque, al menos tienes una web entre tus manos.
¿Por qué es importante el archivo robots.txt?
La correcta configuración de un archivo robots.txt permite:
- Control de contenido indexado: Puedes especificar qué páginas o secciones de tu sitio web no deben ser indexadas.
- Optimización del presupuesto de rastreo: Ayuda a que los motores de búsqueda se centren en el contenido más relevante y pasen de largo del que no lo es. Más información en "¿Qué es el presupuesto de rastreo?"
- Protección de información sensible: Desaconseja el rastreo de áreas privadas o sensibles del sitio.
¿Cómo funciona el archivo robots.txt?
Cuando un rastreador visita tu sitio web, lo primero que busca es el archivo robots.txt para conocer las reglas de rastreo establecidas, reglas que puedes decidir tú.
Estas directivas son voluntarias y, aunque la mayoría de los motores de búsqueda las respetan, algunos rastreadores malintencionados podrían ignorarlas.
Estructura básica de un archivo robots.txt
Un archivo robots.txt se compone de bloques de directivas dirigidas a diferentes rastreadores.
User-agent: *
Disallow: /admin/
Allow: /publico/
Directivas comunes en robots.txt
- User-agent: Especifica el rastreador al que se aplican las reglas. Si pones "*" estarás indicando que se ejecute para cualquier rastreador.
- Disallow: Indica las rutas que no deben ser rastreadas.
- Allow: Permite el rastreo de rutas específicas.
- Sitemap: Proporciona la ubicación del mapa del sitio.
Cómo crear un archivo robots.txt
Crear un archivo robots.txt es un proceso que puedes realizar siguiendo estos pasos:
- Abre un editor de texto plano. Utiliza programas como el Bloc de Notas en Windows o TextEdit en Mac. Evita editores de texto enriquecido que puedan agregar formato no deseado.
- Escribe las directivas de rastreo según tus necesidades e intereses.
- Guarda el archivo como robots.txt.
- Sube el archivo a la raíz de tu sitio web.
- Reza por haberlo configurado correctamente 😉 o, en su defecto, dile a nuestros consultores SEO que te lo revisen.
Si tienes un WordPress, puedes seguir estos pasos: "Robots.txt en WordPress".
Ejemplos prácticos de robots.txt
Como mínimo tu robots.txt tendría que ser así:
Blog personal
User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.tublog.com/sitemap.xml
Tienda online
User-agent: *
Disallow: /carrito/
Disallow: /checkout/
Disallow: /admin/
Allow: /
Sitemap: https://www.tutienda.com/sitemap.xml
Web en construcción
User-agent: *
Disallow: /
OJO: Cuando apliques esta configuración no te olvides de cambiarla cuando ya tengas la web accesible a todo el mundo. Si no la reconfiguras, Google, no podrá rastrearla ni indexarla.
Cómo saber si funciona correctamente el robots.txt
Una vez que hayas creado y subido tu archivo, puedes hacer algunas pruebas para asegurarte de que está configurado como deseas:
- Desde el navegador, escribe tu dominio del siguiente modo y revisa si se carga bien.: https://tudominio.com/robots.txt.
- Usa Google Search Console. Google ofrece una herramienta específica para probar tu archivo. Además, te dirá si alguna regla está bloqueando páginas que quizá no deberían estar bloqueadas.
- Revisa los informes de rastreo. Search Console también te puede avisar si detecta problemas derivados de restricciones excesivas en el robots.txt, como que Googlebot no pueda acceder a recursos necesarios.
Errores comunes en robots.txt
Aquí tienes algunos fallos habituales que conviene evitar:
- Bloquear todo el sitio sin querer. A veces, por error, se deja la regla Disallow: / activa, que bloquea absolutamente todo el sitio web. Esto impide que cualquier página sea rastreada.
- Olvidar quitar reglas temporales. Es común poner restricciones durante el desarrollo y olvidarse de quitarlas después del lanzamiento.
- Tener múltiples archivos robots.txt. Si tienes subdominios, cada uno puede tener su propio archivo, pero no debe haber varios en un mismo dominio.
- Errores en la escritura de rutas. Asegúrate de que las rutas están bien escritas y coinciden con la estructura real de tu web.
Diferencia entre robots.txt y metaetiqueta noindex
Es muy común confundir el archivo robots.txt con las metaetiquetas "noindex". Para que te quede claro:
| Robots.txt | Metaetiqueta noindex |
| Bloquea el acceso de los rastreadores antes de que entren a la página. | Permite el acceso, pero pide que la página no sea indexada. |
| Ideal para carpetas enteras, recursos o zonas privadas. | Perfecta para páginas específicas que quieres que no aparezcan en Google. |
| No garantiza que la URL no aparezca si otros sitios enlazan a ella. | Sí ayuda a que la página no esté en el índice de Google. |
¿Qué es mejor? Depende del caso. A veces lo ideal es combinar ambas técnicas para asegurar tanto el bloqueo como la no indexación.
Consejos de digitalDot
Como vemos que todavía no te has decidido a llamar a los profesionales de digitalDot, te dejamos los siguientes consejos:
- Mantén tu archivo actualizado según los cambios que hagas en tu web.
- Evita bloquear recursos importantes.
- Prueba antes de aplicar cambios.
- Recuerda que no es un sistema de seguridad. Es decir, los rastreadores respetan robots.txt si son motores legítimos (como Googlebot), pero los bots maliciosos podrían ignorarlo.
El archivo robots.txt es una herramienta sencilla pero poderosa para orientar a los motores de búsqueda dentro de tu sitio web. Con una configuración adecuada, puedes mejorar la eficiencia del rastreo, proteger áreas privadas y optimizar tu presencia online. Dedicar unos minutos a entenderlo y configurarlo puede marcar una gran diferencia entre tener una web posicionada o no.
¿Ya revisaste tu robots.txt? ¡Hoy es un buen día para hacerlo!
Preguntas frecuentes sobre robots.txt y SEO
¿El archivo robots.txt ayuda a mejorar mi posicionamiento en Google?
El archivo robots.txt no mejora el SEO por sí mismo, pero ayuda a que Google rastree mejor tu web evitando gastar recursos en páginas irrelevantes, lo que puede influir de forma positiva en el posicionamiento.
¿Si bloqueo una página en el robots.txt, desaparecerá de Google?
No necesariamente. Si una página está bloqueada y otros sitios la enlazan, podría seguir apareciendo en Google sin contenido (solo la URL). Para evitarlo por completo, es mejor usar la metaetiqueta noindex dentro de la página.
¿Debo bloquear las páginas de carrito o pago de mi tienda online?
Sí, es recomendable. Estas páginas no aportan valor SEO, son privadas para el usuario y generan contenido duplicado o irrelevante. Bloquearlas ayuda a que Google se enfoque en productos y categorías.
¿Puedo usar robots.txt para proteger contenido privado?
No. Aunque bloquees una URL, cualquiera puede acceder si conoce el enlace. Si quieres proteger contenido, usa contraseñas, autenticación o bloqueos por servidor.
¿Qué pasa si elimino por error el robots.txt?
Si no tienes archivo robots.txt, los rastreadores podrán acceder libremente a todo tu sitio. No pasa nada grave si tu web no necesita restricciones, pero perderías el control sobre lo que no quieres que se rastree.
¿Robots.txt afecta al tiempo de rastreo de mi sitio?
Sí. Bloquear partes innecesarias de tu web permite que Google invierta su “presupuesto de rastreo” en las páginas más importantes, optimizando el tiempo que pasa en tu sitio y favoreciendo que actualice mejor tu contenido.
¿Cada vez que cambio el robots.txt debo avisar a Google?
No es obligatorio, pero sí recomendable. Puedes usar Google Search Console para enviar el nuevo archivo y comprobar si todo funciona correctamente con la herramienta de prueba de robots.txt.