Googlebot

Googlebot es un robot de búsqueda de software de rastreo web (también conocido como araña o rastreador web) que recopila la información de la página web utilizada para proporcionar las páginas de resultados del motor de búsqueda de Google (SERP).

El robot de Google recopila documentos de la web para crear el índice de búsqueda de Google. Mediante la recopilación constante de documentos, el software descubre nuevas páginas y actualiza las páginas existentes. El robot de Google utiliza un diseño distribuido que abarca muchas computadoras para que pueda crecer como lo hace la Web.

El rastreador web utiliza algoritmos para determinar qué sitios navegar, qué tarifas navegar y cuántas páginas buscar. El robot de Google comienza con una lista generada a partir de sesiones anteriores. Luego, esta lista se ve aumentada por los mapas del sitio proporcionados por los webmasters. El software rastrea todos los elementos vinculados en las páginas web que navega, notando nuevos sitios, actualizaciones de sitios y enlaces inactivos. La información recopilada se utiliza para actualizar el índice de la web de Google.

El robot de Google crea un índice dentro de las limitaciones establecidas por los webmasters en sus archivos robots.txt. Si un webmaster desea mantener las páginas ocultas de la búsqueda de Google, por ejemplo, puede bloquear Googlebot en un archivo robots.txt en la carpeta de nivel superior del sitio. Para evitar que el robot de Google siga los enlaces de una página determinada de un sitio, puede incluir la metaetiqueta nofollow; Para evitar que el bot siga enlaces individuales, el webmaster puede agregar rel = "nofollow" a los enlaces.

El webmaster de un sitio puede detectar visitas cada pocos segundos desde computadoras en google.com, mostrando el usuario-agente Googlebot. Generalmente, Google intenta indexar la mayor cantidad posible de un sitio sin abrumar el ancho de banda del sitio. Si un webmaster descubre que Googlebot está utilizando demasiado ancho de banda, puede establecer una tarifa en la página de inicio de la consola de búsqueda de Google que permanecerá en vigor durante 90 días.

Al presentarse en la conferencia SearchLove de 2011, Josh Giardino afirmó que Googlebot es en realidad el navegador Chrome. Eso significaría que el robot de Google no solo tiene la capacidad de navegar por las páginas en texto, como lo hacen los rastreadores, sino que también puede ejecutar scripts y medios como lo hacen los navegadores web. Esa capacidad podría permitir al robot de Google encontrar información oculta y realizar otras tareas que Google no reconoce. Giardino llegó a decir que Googlebot puede ser la razón original por la que la empresa creó Chrome.