De la creadora de "Cómo aparecer en los resultados de la IA" y de "Qué son los AI Overviews" hoy llega: "No te quedes atrás y utiliza los archivos llms.txt", un medio para que la IA le haga más casito a tu web.
Así que ponte cómodo/a, sírvete un café (o una infusión, que hay que cuidar los nervios), y prepárate para descubrir todo sobre el llms.txt: qué es, para qué sirve, cómo se crea, errores que debes evitar y, por supuesto, todo salpicado con un poco de humor para que tanta información no se te haga bola.
¿Qué es un archivo llms.txt?
El llms.txt es un archivo de texto en formato Markdown que se coloca en la raíz de tu web y que marcará una serie de directrices a los modelos de lenguaje de gran tamaño (LLMs - Large Language Models) como ChatGPT, Gemini, Claude y compañía. Dicho de un modo muy simplificado: informa a la IA lo qué puede hacer o no en nuestra web.
Los asistentes virtuales, los chatbots y los buscadores inteligentes están usando estos modelos de lenguaje para responder a los usuarios. Con el llms.txt, tú decides qué información es la relevante, cómo debe ser interpretada y cómo puede ser usada por la IA.
¿Para qué sirve el archivo llms.txt?
El archivo llms.txt sirve como una especie de "manual de instrucciones" para los LLMs, ya que permite:
- Guiar a los modelos de IA: Les dices qué partes de tu web son importantes y cuáles pueden ignorar.
- Priorizar contenido: ¿Quieres que tu sección de servicios salga en todas las respuestas y no la página de política de cookies? El llms.txt te lo permite.
- Controlar la privacidad: Puedes decirle a la IA que no use ciertas secciones para entrenamiento o respuestas.
- Mejorar la visibilidad: Si la IA entiende bien tu web, más fácil que te recomiende en respuestas y chats.
Ventajas de tener un llms.txt
Quizá pienses: “Bah, otro archivo más. Ya tengo el robots.txt, el sitemap.xml y la cuota de autónomo al día. ¿De verdad necesito esto?”
La respuesta es SÍ, y aquí van las razones:
- Mejor visibilidad en IA y chatbots: Las búsquedas ya no son sólo en Google. Ahora la gente le pregunta a ChatGPT, a Siri, a Alexa… Si tu web no está bien preparada para estos sistemas (casi diría yo que nuevos canales), puedes perder visibilidad, reconocimiento de marca y clientes.
- Control total sobre tu contenido: ¿Quieres que la IA use tus posts para responder en chats, pero no para entrenar modelos? Lo decides tú con las directivas del llms.txt.
- Ventaja competitiva: Todavía hay muchas webs que no lo tienen. Si tú lo implementas, te adelantas a la competencia y te posicionas como un referente en tu sector.
- Más precisión en las respuestas: ¿Cansado de ver respuestas de IA que mezclan datos antiguos, erróneos o irrelevantes sobre tu negocio? El llms.txt ayuda a que la IA use solo lo que tú quieres.
- Es fácil de hacer y mantener: No necesitas ser programador ni tener un máster en IA. Es un archivo de texto, sencillo y directo. Además, estás leyendo un artículo de digitalDot y aquí estamos para ayudarte así que, ve a por otro café (o infusión) que te vamos a explicar cómo crearlo.
Cómo crear un archivo llms.txt
Ahora viene la parte práctica. ¿Te acuerdas de cuando hacías la lista de la compra en papel? (Espero que sí te acuerdes porque o si no me vas a hacer sentir muuuuy mayor), pues esto es parecido, pero en formato Markdown.
A diferencia de un robots.txt (por cierto, si quieres saber más sobre este archivo, lee el artículo: "Cómo configurar una archivo robots.txt"), que regula los crawlers de motores de búsqueda, el llms.txt establece, como ya hemos comentado, directivas específicas para modelos de IA, definiendo si pueden usar el contenido para entrenamiento, interacciones de chat, incrustar fragmentos o generar respuestas.
Aunque aún no hay un estándar universalmente adoptado, sí que hay una estructura básica que se debe cumplir.
Estructura básica de un llms.txt
El archivo llms.txt se coloca en la raíz del sitio web (por ejemplo, https://example.com/llms.txt) y utiliza una sintaxis clara con comandos y parámetros. La estructura básica incluye:
- Encabezado o comentario (opcional):
- Líneas que comienzan con # para describir el propósito del archivo o secciones específicas.
- Ejemplo: # Directivas para LLMs.
- Bloques de directivas:
- Cada bloque comienza con un identificador de los LLMs a los que aplica (por ejemplo, LLM: * para todos los modelos).
- Seguido por parámetros que controlan el comportamiento, como permitir o denegar ciertas acciones.
- Puede incluir rutas específicas (por ejemplo, Path: /ruta/) para aplicar reglas a secciones del sitio.
- Parámetros clave:
- Directivas como $trainingAllowed, $chatAllowed, $embedded, y $responseLength para definir permisos y restricciones. Estas directivas controlan cómo los LLMs pueden usar el contenido.
- Sintaxis clara:
- Usa una estructura de pares clave-valor (por ejemplo, $trainingAllowed: true) o rutas específicas (por ejemplo, Path: /contenido-premium/).
- Las reglas son jerárquicas: las directivas generales aplican a todo el sitio, mientras que las específicas (por ruta) anulan las generales.
Elementos que debe incluir un llms.txt
Un archivo llms.txt debería incluir los siguientes elementos clave:
- Identificador de LLMs (LLM):
- Especifica a qué modelos de IA se aplican las reglas.
- Ejemplo: LLM: * (todos los LLMs) o LLM: ChatGPT (solo un modelo específico).
- Si no hay un estándar definido, usar * es común para abarcar todos los modelos.
- Directiva de entrenamiento ($trainingAllowed):
- Indica si el contenido del sitio puede usarse para entrenar LLMs.
- Valores: true (permitido) o false (prohibido).
- Ejemplo: $trainingAllowed: false evita que el contenido se use para mejorar los modelos de IA, protegiendo datos sensibles.
- Directiva de interacciones de chat ($chatAllowed):
- Controla si los LLMs pueden leer el contenido para responder preguntas en tiempo real.
- Valores: true (permitido) o false (prohibido).
- Ejemplo: $chatAllowed: true permite a un LLM responder preguntas basadas en el contenido del sitio, lo que permitirá que aparezcas en sus respuestas.
- Directiva de contenido incrustado ($embedded):
- Define si los LLMs pueden incluir fragmentos del contenido en sus respuestas (por ejemplo, citas directas).
- Valores: allowed (permitido), disallowed (prohibido), o restricciones específicas.
- Ejemplo: $embedded: allowed permite citar partes del sitio en las respuestas del LLM.
- Límite de longitud de respuesta ($responseLength):
- Establece un límite en la longitud de las respuestas generadas por el LLM basadas en el contenido del sitio.
- Valores: Un número (puede interpretarse como caracteres, palabras, o tokens, dependiendo del estándar).
- Ejemplo: $responseLength: 150 limita las respuestas a 150 unidades (caracteres o palabras).
- Restricciones por ruta (Path):
- Permite definir reglas específicas para secciones del sitio (por ejemplo, contenido premium o áreas privadas).
- Ejemplo: Path: /contenido-premium/ seguido de directivas como $chatAllowed: false para bloquear el acceso a esa ruta.
- Esto es útil para proteger contenido de pago, datos sensibles, o secciones internas.
- Comentarios para claridad (opcional):
- Líneas con # para explicar las secciones o el propósito de las directivas.
- Ejemplo: # Restricciones para contenido premium.
Además de estos puntos, se podrían incluir también:
- Directivas para LLMs específicos: Si el sitio quiere tratar a ciertos modelos de IA de forma diferente (por ejemplo, permitir más acceso a Grok que a ChatGPT), se pueden añadir bloques como LLM: ChatGPT con reglas específicas.
- Restricciones por tipo de contenido: Si el sitio tiene más secciones sensibles (por ejemplo, /clientes/, /recursos/, o /api/), se deben añadir bloques Path para cada una.
- Directiva de contacto (opcional): Algunos sitios incluyen un correo o enlace para que los operadores de LLMs soliciten permisos adicionales (por ejemplo, Contact: info@digitaldot.es).
- Versión del formato (opcional): Si el estándar de llms.txt evoluciona, podría incluirse una línea como # Version: 1.0 para indicar compatibilidad.
Ejemplo básico de llms.txt
# miwebdevinos.com
> Tienda online de productos gourmet, vinos y delicias artesanas. Envíos a toda España.
## Secciones principales
- [Inicio](https://www.miwebdevinos.com) - Descubre nuestras novedades y ofertas.
- [Vinos](https://www.miwebdevinos.com/vinos/) - Selección de vinos nacionales e internacionales.
- [Quesos](https://www.miwebdevinos.com/quesos/) - Los mejores quesos artesanos.
- [Cestas regalo](https://www.miwebdevinos.com/cestas/) - Sorprende con nuestras cestas gourmet.
- [Blog](https://www.miwebdevinos.com/blog/) - Consejos, recetas y maridajes.
- [Contacto](https://www.miwebdevinos.com/contacto/) - ¿Tienes dudas? ¡Hablamos!
## Directivas para LLMs
LLM: *
$trainingAllowed: false
$chatAllowed: true
$embedded: allowed
$responseLength: 200
# Zona VIP: solo para clientes registrados
LLM: *
Path: /vip/
$trainingAllowed: false
$chatAllowed: false
Resumen del significado de las directrices:
- $trainingAllowed: Permite o prohíbe el uso del contenido para entrenar modelos de IA.
- $chatAllowed: Permite el uso en respuestas de chat.
- $embedded: Permite que el contenido se embeba en respuestas.
- $responseLength: Limita la longitud de las respuestas generadas.
¿Dónde se pone el llms.txt?
Una vez que le has dado forma, guárdalo y:
- Súbelo a la raíz del dominio (https://www.tudominio.es/llms.txt)
- Opcional: Añade la cabecera HTTP X-Robots-Tag: llms-txt para facilitar su detección por IA.
Errores comunes al crear un llms.txt
Todos hemos cometido errores y antes de que los cometáis vosotros, es mejor que conozcáis los más comunes:
- No ponerlo en la raíz del dominio: Si lo subes a una carpeta perdida, la IA no lo encontrará ni aunque le pongas un GPS. Tiene que estar en https://www.tudominio.es/llms.txt
- No usar formato Markdown: Si lo escribes como si fuera un Word, la IA se hace un lío. Usa # para títulos, - para listas, etc.
- No priorizar el contenido: Sin una estructura clara (títulos, secciones, descripciones y enlaces) dificulta que la IA entienda qué es lo más importante de tu web
- Olvidar las directivas: Si no dices qué puede y qué no puede hacer la IA, es como dejar la puerta abierta: puede entrar quien quiera.
- No actualizarlo: ¿Has cambiado la web? ¿Has añadido una sección? Actualiza el llms.txt. Si no, la IA vivirá en el pasado, como Marty McFly.
- No proteger contenido sensible: ¿Tienes zonas privadas, cursos premium, información confidencial? Usa las directivas para que la IA no meta la nariz donde no debe.
- Errores de sintaxis: Revisa que todo esté bien escrito. Un error y la IA puede ignorar el archivo.
- No enlazar a URLs originales: Si sólo incluyes descripciones sin referencias claras a las URLs originales de tu web, los modelos pueden no identificar correctamente las fuentes
Diferencias entre llms.txt, robots.txt y sitemap.xml
Cada vez son más las acciones que debemos realizar en una web y hay términos que por su parecido se pueden confundir. Ya sabemos que estás deseando acabar este artículo e ir a crear tu genial archivo llms.txt, pero mantente un poquito más aquí que estamos a punto de terminar, y al final, vas a tener una agradable sorpresa.
Sitemap.xml, robots.txt y llms.txt, se parecen pero no tienen nada que ver. Cada uno tiene su función, como si de superhéroes de Marvel se trataran:
- robots.txt: Le dice a los motores de búsqueda (Google, Bing…) qué partes de tu web pueden rastrear o no.
- sitemap.xml: Es el mapa de todas las páginas de tu web, para que los buscadores no se pierdan.
- llms.txt: Es la guía personalizada para los modelos de IA. Les dice qué es lo importante, qué pueden usar y cómo deben hacerlo.
IMPORTANTE: Estos archivos no se sustituyen los unos por los otros, ¡se complementan!
| Archivo | Propósito | Ubicación típica | Accesible por | Ejemplo de uso |
| robots.txt | Indicar a los bots qué partes del sitio web deben/no deben rastrear. | `https://tusitio.com/robots.txt` | Motores de búsqueda | `Disallow: /privado/` |
| sitemap.xml | Listar todas las URLs del sitio web para facilitar su indexación. | `https://tusitio.com/sitemap.xml` | Motores de búsqueda | `https://tusitio.com/blog` |
| llms.txt | Definir cómo los modelos de lenguaje (LLMs) pueden usar contenido del sitio. | `https://tusitio.com/llms.txt` | Modelos de IA y crawlers LLM | `Allow: /blog/*` |
Resumiendo (que ya va siendo hora):
El archivo llms.txt es tu nueva herramienta secreta para que la IA entienda, respete y potencie tu web.
No es complicado, no requiere conocimientos avanzados y puede marcar la diferencia en cómo apareces en respuestas de chatbots y asistentes virtuales.
Así que ya sabes:
- Haz tu llms.txt
- Ponlo en la raíz de tu dominio.
- Actualízalo cuando cambie tu web.
- Y presume de estar a la última en IA.
Herramientas para crear llms.txt
Ah, y aquí os dejamos la sorpresa. En digitalDot tenemos alma colaborativa y hemos creado un plugin para que podáis crear vosotros mismos un llms.txt para vuestro WordPress (pronto lo tendréis como módulo para Prestashop). En el siguiente enlace, lo podéis obtener: Plugin para crear llms.txt
Si tenéis dudas, si no queréis hacerlo vosotros, si se os va la vida con tanta IA…, contad con el equipo de posicionamiento GEO de digitalDot, que además de profesionales, somos muy majos.
Preguntas frecuentes sobre llms.txt
¿Es obligatorio tener un llms.txt?
No, pero cada vez más recomendable. Si quieres que la IA interprete bien tu web, es tu mejor aliado.
¿Puedo tener llms.txt y robots.txt a la vez?
Por supuesto. Son archivos diferentes y cada uno cumple su función.
¿Qué pasa si no lo tengo?
La IA intentará interpretar tu web por sí sola y eso puede conducir a que o bien no te muestre en los resultados o que aparezcas en respuestas que no son las correctas.
¿Cómo afecta un llms.txt al SEO o al marketing digital?
Un llms.txt no impacta directamente el SEO tradicional, pero es crucial para la Optimización para Inteligencia Artificial (AIO). Al permitir que los LLMs citen tu contenido en chats, puedes aumentar el tráfico a tu sitio.