robots.txt

Robots.txt es un archivo en un sitio web que indica a los rastreadores de los motores de búsqueda qué partes del sitio no deben ser accedidas por los programas bot del motor de búsqueda. Robots.txt es un archivo de texto sin formato, pero utiliza comandos y sintaxis especiales para rastreadores web. Aunque no está estandarizado oficialmente, todos los motores de búsqueda suelen seguir el archivo robots.txt.

Los programas Spider, como Googlebot, indexan un sitio web utilizando las instrucciones establecidas por el webmaster del sitio. A veces, un webmaster puede tener partes del sitio que no se han optimizado para los motores de búsqueda, o algunas partes de los sitios web pueden ser propensas a ser explotadas por los spammers a través, por ejemplo, de enlaces de spam en una página que presenta contenido generado por el usuario (CGU). Si un webmaster desea mantener las páginas ocultas de la búsqueda de Google, puede bloquear la página con un archivo robots.txt en la carpeta de nivel superior del sitio. Robots.txt también se conoce como "el protocolo de exclusión de robots". Evitar que los rastreadores indexen contenido fraudulento significa que la página no se considerará al determinar el PageRank y la ubicación en las páginas de resultados de los motores de búsqueda (SERP). 

La etiqueta nofollow es otra forma de controlar el comportamiento del rastreador web. La etiqueta nofollow evita que los rastreadores contabilicen los enlaces dentro de las páginas para determinar el PageRank. Los webmasters pueden usar nofollow para evitar penalizaciones por optimización de motores de búsqueda (SEO). Para evitar que el robot de Google siga los enlaces de una página determinada de un sitio, el webmaster puede incluir una metaetiqueta nofollow en el archivo robots.txt; para evitar que el bot siga enlaces individuales, puede agregar rel = "nofollow" a los enlaces.