Menú Cerrar

Verificar el robot de Google y otros rastreadores de Google

Si eres como yo, un completo entusiasta del SEO, entonces es probable que te hayas preguntado alguna vez si un rastreador web que se aparece en tu servidor es realmente un rastreador de Google, como el robot de Google, o si es una especie de impostor. Los spammers y otras personas con intenciones maliciosas pueden intentar acceder a tu sitio fingiendo ser el robot de Google, por lo que es muy útil saber diferenciar.

Entendiendo los rastreadores de Google

Para comenzar, vamos a dividir los rastreadores de Google en tres categorías:

Tipo de rastreadorDescripciónMáscara de DNS invertidaIntervalos de IPs
GooglebotEl rastreador principal de los productos de búsqueda de Google. Siempre respeta las reglas de robots.txt.crawl-.googlebot.com o geo-crawl-.geo.googlebot.comgooglebot.json
Rastreadores para casos especialesRastreadores que realizan funciones específicas (como AdsBot), que pueden o no respetar las reglas de robots.txt.rate-limited-proxy-.google.comspecial-crawlers.json
Sistemas de obtención activados por el usuarioHerramientas y funciones de producto en las que el usuario final activa una obtención. Por ejemplo, Google Site Verifier actúa cuando lo solicitan los usuarios. Dado que los usuarios solicitan la obtención, estos sistemas ignoran las reglas de robots.txt..gae.googleusercontent.comuser-triggered-fetch

Verificando los rastreadores de Google: 1. Método Manual

Ahora que sabes un poco más sobre los diferentes tipos de rastreadores de Google, veamos cómo puedes verificar si un rastreador es legítimo.

Primero, el método manual. Este método es suficiente para la mayoría de los casos y requiere el uso de herramientas de línea de comandos. Aquí te dejo un ejemplo de cómo hacerlo:

  1. Búsqueda de la dirección IP: busca en tus registros la dirección IP que está accediendo a tu servidor.
  2. Petición de DNS invertida: utiliza el comando «host» para hacer una petición de DNS invertida con la dirección IP que encontraste.
  3. Verificación del dominio: verifica que el nombre de dominio es googlebot.com, google.com o googleusercontent.com.
  4. Petición de DNS normal: ejecuta una petición de DNS normal con el nombre de dominio que obtuviste en el paso 2; para hacerlo, usa el comando «host» en el nombre de dominio.
  5. Verificación final: asegúrate de que la dirección IP obtenida es la misma dirección IP de acceso original que figura en tus registros.

Si los pasos anteriores confirman que el dominio y la dirección IP coinciden con Google, puedes respirar tranquilo sabiendo que ese rastreador es legítimo.

Verificando los rastreadores de Google: 2. Método Automático

Si necesitas verificar rastreadores a gran escala, es posible que desees utilizar una solución automática. Este método consiste en hacer coincidir la dirección IP de un rastreador con la lista de direcciones IP del robot de Google publicadas. Se aplica a varios tipos de rastreadores y sistemas de obtención de Google, incluyendo:

  • Googlebot
  • Rastreadores especiales como AdsBot
  • Obtenciones activadas por el usuario

Para aquellas direcciones IP de Google que pueden estar accediendo a tu sitio, como Apps Script, debes hacer coincidir la dirección IP de acceso con la de la lista de direcciones IP de Google. Ten en cuenta que las direcciones IP de los archivos JSON se representan en formato CIDR.

Escanea el código