Menú Cerrar

Rastreadores de Google: Guía Completa

¿Estás listo para entender los enredos de la telaraña que Google utiliza para escanear Internet? Hoy voy a hablar sobre los rastreadores de Google, también conocidos como «robots», «bots» o «arañas».

Rastreadores habituales

Empezaremos con los rastreadores habituales de Google, que son las estrellas del espectáculo. Estos tipos hacen todo el trabajo pesado, creando los índices de búsqueda de Google y proporcionando datos para análisis.

  • Por ejemplo, el Googlebot Smartphone y el Googlebot Desktop son los responsables de rastrear y analizar las versiones de sitios web para dispositivos móviles y de escritorio, respectivamente.
  • A continuación, tenemos el Googlebot Image, que rastrea imágenes.
  • El Googlebot News se enfoca en artículos periodísticos.
  • Y no olvidemos al Googlebot Video! Este rastreador se encarga de los contenidos de video de Google Videos y otros productos dependientes de videos.
  • Google Favicon rastrea las favicons de los sitios web.
  • Google StoreBot rastrea páginas específicas relacionadas con tiendas online, como las páginas de detalles de productos y las páginas de tramitación de la compra.
  • Google-InspectionTool se utiliza en herramientas de prueba de búsqueda.
  • GoogleOther, un rastreador genérico para la obtención de contenido de acceso público.

Rastreadores para casos especiales

En la inmensa red de rastreadores de Google, existen algunas categorías diseñadas para situaciones muy específicas, a las que nos referimos como rastreadores para casos especiales. Estos bots particulares entran en juego cuando se requiere un acuerdo entre el sitio que está siendo rastreado y el producto de Google correspondiente, en relación con el proceso de rastreo.

Por ejemplo, consideremos APIs-Google, un rastreador especializado que se utiliza para enviar mensajes de notificaciones push. Este bot interactúa con aplicaciones y sitios web para permitirles enviar notificaciones oportunas y relevantes a los usuarios, mejorando así la interactividad y la experiencia del usuario. Específicamente, podría ser de utilidad para una app de noticias que quiera alertar a sus usuarios sobre una noticia de última hora.

Otro ejemplo sería AdsBot, el cual verifica la calidad de los anuncios que aparecen en las páginas web. Este bot es crucial para mantener un alto nivel de experiencia del usuario en la web, ya que se encarga de asegurar que los anuncios publicitarios sean relevantes y seguros, evitando así publicidad engañosa o maliciosa.

Estos rastreadores para casos especiales, por lo tanto, juegan un papel fundamental en la optimización de la experiencia de navegación en Internet, aportando beneficios tanto a los usuarios como a los propietarios de sitios web y aplicaciones.

Sistemas de obtención activados por el usuario

¡Pero espera, hay más!

Existen soluciones tecnológicas específicamente diseñadas para responder a las acciones del usuario. Estos son los llamados sistemas de obtención activados por el usuario, que solo se ponen en marcha cuando los usuarios ejecutan una función particular del producto.

Un ejemplo claro de esto es Google Site Verifier. Este sistema de obtención es activado por los usuarios cuando necesitan verificar la propiedad de un sitio web en los servicios de Google. Al solicitar esta acción, los propietarios del sitio pueden demostrar que tienen control sobre la página, lo que permite el acceso a herramientas de análisis y configuración más profundas.

Feedfetcher, por otro lado, se utiliza para rastrear los feeds RSS o Atom. Los usuarios activan este sistema cuando desean mantenerse actualizados con el contenido de un sitio web específico, permitiendo así una lectura eficiente y rápida de las últimas actualizaciones.

Finalmente, Google Read Aloud es un sistema activado por el usuario que obtiene y lee en voz alta páginas web. Esto es especialmente útil para personas con discapacidades visuales, ya que les permite interactuar con el contenido de la web de manera accesible.

User-agents en archivos robots.txt

El manejo de user-agents en los archivos robots.txt es una parte fundamental de la administración de sitios web. Los user-agents, o agentes de usuario, son identificadores de los rastreadores de motores de búsqueda que visitan su sitio. Cuando Google encuentra múltiples user-agents en un archivo robots.txt, siempre acata la directiva más específica.

Si consideramos un ejemplo práctico, digamos que desea que todos los rastreadores de Google tengan acceso a su sitio. En este caso, no necesitará ningún archivo robots.txt. Google, por defecto, rastreará y analizará todas las páginas disponibles, a menos que se indique lo contrario.

Sin embargo, si desea restringir el acceso a todos los rastreadores de Google, debe establecer reglas para el user-agent «Googlebot» en su archivo robots.txt. Al bloquear a este user-agent, efectivamente está previniendo que cualquier rastreador de Google explore su sitio. Esta puede ser una estrategia útil si desea limitar el rastreo de su sitio por razones de carga del servidor o de privacidad.

Control más preciso

En situaciones donde necesitas un control más detallado de los rastreadores que visitan tu sitio web, los tokens de user-agent se convierten en una herramienta poderosa. Estos, especificados en tu archivo robots.txt, te permiten determinar qué rastreadores pueden acceder a qué partes de tu sitio. Por ejemplo, podrías permitir al «Googlebot-News» acceder a tu sección de noticias, pero bloquearlo de otras secciones. Así, puedes personalizar las interacciones de Google con tu sitio, asegurando que el rastreo se realice exactamente según tus preferencias y necesidades.

Escanea el código