¿Cómo interpreta Google el archivo robots.txt?
Google, junto a otros rastreadores automáticos, utiliza el protocolo de exclusión para robots (REP), lo que significa que antes de rastrear un sitio, Google se descarga y analiza el archivo robots.txt del sitio para averiguar qué partes del sitio puede rastrear. El protocolo REP, sin embargo, no afecta a los rastreadores controlados por los usuarios, ni a los rastreadores que se usan para proteger la seguridad de los usuarios, como el análisis de software malicioso.
Para que te hagas una idea, imagina el robots.txt como una especie de portero que le dice a Google qué partes de tu sitio están abiertas para él y cuáles no. Si no quieres que Google acceda a ciertas áreas de tu web, es este archivo el que debes usar para comunicárselo. Así, podrías tener un archivo robots.txt para example.com que se vea así:
User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml
En este caso, estás diciendo a todos los rastreadores (representados por el *) que no pueden acceder al directorio ‘includes’, pero después le indicas a Googlebot que sí puede acceder a él. Finalmente, proporcionas la ubicación de tu sitemap para facilitar la navegación de los rastreadores.
¿Dónde debe estar el archivo robots.txt y cuánto tiempo es válido?
El archivo robots.txt es fundamental para indicar a los motores de búsqueda cómo interactuar con un sitio web. Este archivo debe ubicarse en el directorio de nivel superior del sitio, siendo accesible a través de los protocolos HTTP, HTTPS y FTP que Google comprende. Importante recordar que la URL de este archivo distingue entre mayúsculas y minúsculas, lo cual puede afectar su correcta lectura.
El robots.txt tiene validez únicamente en el host, protocolo y número de puerto en los que se aloja. Por ejemplo, si tu sitio está en «https://miweb.com:80«, y cambias a «https://miwebnueva.com:90«, necesitarás un nuevo archivo robots.txt para esta última dirección. Por tanto, su vigencia es hasta que estos parámetros cambien.
Manejando errores y códigos de estado HTTP
El archivo robots.txt también tiene una relación bastante interesante con los códigos de estado HTTP. Veamos cómo Google trata los archivos robots.txt en función del código de estado HTTP:
Código HTTP | Significado y acción de Google |
---|---|
2xx (Éxito) | Google procesará el archivo robots.txt proporcionado por el servidor. |
3xx (Redirección) | Google sigue hasta cinco redirecciones y luego se detiene, tratando el archivo robots.txt como un 404. Google no sigue las redirecciones lógicas. |
4xx (Errores del cliente) | Google tratará todos los errores 4xx, excepto 429, como si no hubiera archivos robots.txt válidos, por lo que no se aplican restricciones de rastreo. |
5xx (Errores del servidor) y 429 | Google interpreta temporalmente estos errores como si el sitio estuviese totalmente prohibido. Google intentará rastrear el archivo robots.txt hasta que se obtenga un código de estado HTTP sin error del servidor. |
Almacenamiento en caché y su impacto en el archivo robots.txt
Google utiliza una práctica conocida como almacenamiento en caché para mejorar la eficiencia de sus operaciones de rastreo en la web. En el caso del archivo robots.txt, que especifica a los robots de búsqueda qué páginas del sitio web pueden o no ser rastreadas, Google almacena su contenido en caché por un período máximo de 24 horas.
Este proceso significa que Google consulta el archivo robots.txt una vez al día, recopila las directivas especificadas y las aplica durante el próximo día. Sin embargo, esta duración de 24 horas puede prolongarse en ciertas circunstancias. Por ejemplo, si Google intenta actualizar el archivo robots.txt pero se enfrenta a tiempos de espera agotados o a errores 5xx (que representan problemas en el servidor), el período de almacenamiento en caché se extiende hasta que la actualización pueda realizarse con éxito.
Esto implica que cualquier cambio realizado en el archivo robots.txt puede tardar un día o más en reflejarse en las operaciones de rastreo de Google. Por lo tanto, los administradores de sitios web deben considerar este retraso al implementar cambios importantes en sus archivos robots.txt. Es fundamental tener en cuenta la respuesta del servidor y evitar errores para garantizar que las directivas de rastreo estén siempre actualizadas y sean efectivas.
Especificaciones de formato para el archivo robots.txt
El archivo robots.txt juega un papel fundamental en la interacción con los rastreadores web, como los de Google. Para asegurar una comunicación efectiva, es necesario que este archivo siga ciertos formatos y pautas. Debe estar codificado en UTF-8, un estándar de codificación que cubre prácticamente todos los caracteres y símbolos utilizados en todos los idiomas escritos del mundo. Esta codificación debe presentarse como texto sin formato.
Además, las líneas dentro del archivo deben estar separadas por un retorno de carro (CR), un retorno de carro seguido de un avance de línea (CR/LF) o solo un avance de línea (LF). Este formato garantiza que los rastreadores puedan interpretar correctamente las directivas especificadas en cada línea.
En cuanto a su tamaño, el archivo robots.txt no debe superar los 500 kibibytes (KiB). Si se excede este límite, cualquier contenido que sobrepase este tamaño será ignorado por Google. Esto es crucial a considerar al proporcionar directivas detalladas para sitios web extensos.
Google sigue estas pautas para simplificar la lectura del archivo. Si se encuentran líneas no válidas, son ignoradas, solo se utilizan las válidas. Esto asegura que los errores individuales en las líneas no interrumpen el proceso completo de rastreo.
Sintaxis del archivo
Las líneas válidas del archivo robots.txt consisten en un campo, dos puntos (:) y un valor. Para mejorar la legibilidad, se recomienda utilizar espacios, pero estos son opcionales.
Google admite los siguientes campos:
- user-agent: identifica al rastreador al que se aplican las reglas.
- allow: ruta de URL que se puede rastrear.
- disallow: ruta de URL que no se puede rastrear.
- sitemap: URL completa de un sitemap.
Por ejemplo, podrías tener algo como esto:
user-agent: Googlebot
allow: /blog
disallow: /private
sitemap: https://example.com/sitemap.xml
En resumen, el archivo robots.txt es un poderoso aliado en tu estrategia SEO. Con él, puedes controlar el acceso de Google a ciertas partes de tu sitio, ayudándote a mantener tu sitio optimizado y funcional.