User-agent: Googlebot
Disallow: /carpeta
Para evitar que indexe todos los archivos con una determinada extensión (ej. .gif) :
User-agent: Googlebot-Image
Disallow: /*.gif$
Para evitar que Google indexe páginas generadas dinámicamente, deberemos incluir en nuestro robots.txt:
User-agent: Googlebot
Disallow: /*?Otro ejemplo:
User-agent: Googlebot
Disallow: /*sort=
La utilización del asterísco en este formato no es parte del protocolo inicial del robots.txt (Google lo tenía bastante escondido en sus directrices para webmasters). Y no está soportada por todos los buscadores. Por ello debemos indicar que nos referimos a Googlebot.
Con estas instrucciones con asteríscos podemos evitar que nuestra web tenga problemas de duplicados vetando a Googlebot las páginas que nos interese.
Si queremos desindexar con mayor rapidez algunas de nuestras páginas, podemos usar la Herramienta de Borrado Automático de URLs. Aunque ten en cuenta que si utilizas este sistema no podrás volverte atrás en 6 meses, aunque luego cambies tu robots.txt.
vía seobook
Tambien hay comandos que se pueden agregar en el archivo robots.txt para poder evitar a los webcopier, teleport, etc.
aca tienen los codigos:
User-agent: WebZIP
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: Teleport Pro
Disallow: /
User-agent: Wget
Disallow: /
User-agent: eCatch
Disallow: /
User-agent: WebCopier
Disallow: /