Menú Cerrar

Cómo escribir y enviar un archivo robots.txt

Un archivo robots.txt es como un portero de discoteca. Decide quién entra y quién se queda fuera. Se coloca en la raíz de tu sitio, como el portero se queda en la puerta. Si tu sitio es www.example.com, tu robots.txt debería estar en www.example.com/robots.txt. ¡Fácil, verdad!

En este archivo, puedes establecer reglas para que los rastreadores sepan qué archivos pueden tocar y cuáles no. Por ejemplo, puedes tener algo como esto:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml


Allow: /

Sitemap: https://www.example.com/sitemap.xml

¡Parece un montón de texto críptico, lo sé! Pero no te preocupes, vamos a desglosarlo.

  • El user-agent «Googlebot» no puede rastrear ninguna URL que comience por https://example.com/nogooglebot/. Lo siento, Googlebot, esa parte del club es privada.
  • Todos los demás user-agents tienen un pase VIP. Pueden rastrear todo el sitio.
  • Y aquí está tu mapa del sitio, mostrándole a los rastreadores dónde encontrar todas las cosas buenas.

¿Cómo crear un archivo robots.txt?

Empecemos por lo básico. Para crear tu archivo robots.txt, necesitas un editor de texto, no un procesador de palabras. ¿Por qué? Bueno, los procesadores de palabras pueden añadir caracteres raros que confunden a los rastreadores. Algo tan sencillo como el Bloc de notas funcionará.

Tienes que llamar a tu archivo «robots.txt». Sí, «robotitos.txt» podría sonar más divertido, pero no es lo que los rastreadores están buscando. Necesitas un solo archivo robots.txt por sitio, y tiene que estar en la raíz de tu sitio.

Reglas de escritura de robots.txt

Las reglas son donde entra en juego la magia. Son como las instrucciones de un juego, diciéndole a los rastreadores qué hacer. En tu archivo robots.txt, cada regla va en su propia línea. Por ejemplo:

User-agent: Googlebot
Disallow: /private/
Allow: /public/

Esta configuración le dice a Googlebot que no puede rastrear nada en tu carpeta «/private», pero que puede entrar en «/public». ¡Oye, todos necesitamos algo de privacidad, incluso en la web!

También puedes especificar reglas para todos los rastreadores con un «*». Y recuerda, ¡las reglas distinguen entre mayúsculas y minúsculas!

User-agent: *
Disallow: /super-secret/

Esto le dice a todos los rastreadors que se mantengan alejados de tu carpeta «/super-secret». Porque, ya sabes, es super secreta.

Sitemaps y robots.txt

¡Ah, los sitemaps! Son como un mapa del tesoro para los rastreadores. Les muestras todas las joyas que hay en tu sitio. Puedes indicar dónde encontrar tu sitemap en tu archivo robots.txt. Algo así como:

Sitemap: https://example.com/sitemap.xml

Con eso, los rastreadores sabrán dónde buscar tu mapa.

Probando y enviando tu archivo robots.txt

¡Felicidades! Ahora tienes un archivo robots.txt bien formado. Pero antes de publicarlo, debes probarlo. Asegúrate de que funciona como esperas y no está bloqueando algo que debería ser rastreado o permitiendo el acceso a algo que debería estar bloqueado. Google tiene una herramienta de prueba de robots.txt que puede ayudarte con eso.

El siguiente paso para publicar tu archivo, es subirlo a la raíz de tu sitio. 

Escanea el código