El Robots.txt y Google

Para evitar que Google indexe el contenido de una determinada carpeta deberemos incluir en el robots.txt :

User-agent: Googlebot
Disallow: /carpeta

Para evitar que indexe todos los archivos con una determinada extensión (ej. .gif) :

User-agent: Googlebot-Image
Disallow: /*.gif$

Para evitar que Google indexe páginas generadas dinámicamente, deberemos incluir en nuestro robots.txt:

User-agent: Googlebot
Disallow: /*?

Otro ejemplo:

User-agent: Googlebot
Disallow: /*sort=

La utilización del asterísco en este formato no es parte del protocolo inicial del robots.txt (Google lo tenía bastante escondido en sus directrices para webmasters). Y no está soportada por todos los buscadores. Por ello debemos indicar que nos referimos a Googlebot.
Con estas instrucciones con asteríscos podemos evitar que nuestra web tenga problemas de duplicados vetando a Googlebot las páginas que nos interese.

Si queremos desindexar con mayor rapidez algunas de nuestras páginas, podemos usar la Herramienta de Borrado Automático de URLs. Aunque ten en cuenta que si utilizas este sistema no podrás volverte atrás en 6 meses, aunque luego cambies tu robots.txt.

vía seobook

Error de programación en Google

Hace algún tiempo comenté en el weblog (el viejo) que había errores en la descripción de Google España.
Uno de los errores (sin demasiada importancia) lo han corregido, lo han corregido en Dmoz no en Google. El otro error si les concierne a ellos (no es culpa de dmoz) y podría considerarse como un bug de programación de Google.

Google decidió en su momento que si alguien al realizar una búsqueda dejaba suelta una consonante o una vocal esto se debería a un “error del usuario”, y así al buscar por ejemplo “i f I were you” en los resultados de búsqueda Google devuelve “if I were you”. Otro ejemplo: “n a s a“.

Se les olvidó que en español usamos la Y como “separador de palabras”, y que por tanto la frase “y a Madrid” no es ningún error ortográfico. Para esta última búsqueda, Google devuelve tanto resultados para la frase que buscó originalmente el usuario como para la que Google supone que el usuario estaba buscando (equivocadamente). En ambos casos Google une la Y y la A en las descripciones de las serps. Es más, los resultados son idénticos si buscamos “ya madrid” o “y a madrid“.
Y no solo ocurre cuando realizamos una búsqueda “conflictiva”, como se ve en la imagen superior cualquier descripción que contenga “y a”, “y o”, “u o”…. motivará un error.

Un error de bulto por parte de google que demuestra una vez más que a Google se la sopla bastante el mercado hispano. Google muestra “millones” de descripciones en español (y otros idiomas) con errores ortográficos por un error suyo, incluso su propia descripción se ve afectada.

Ahora que Matt Cutts le ha dado por leer weblog hispanos, veamos si este enlace con mensaje le llega: Google spanish Serps Bug.

vía Fran y Alfredo

– Otro pequeño error en Google España.

Búsqueda avanzada según copyright en Google

Google acaba de añadir una nueva herramienta a su búsqueda avanzada (solamente en inglés). Se trata de la posibilidad de filtrar resultados según los derechos de uso del material suministrado. Google nos ofrece tres opciones:

1.- Ofrecer resultados sin ningún filtro por licencia.
(la búsqueda por defecto)
2.- Resultados que permiten ciertas restricciones de uso.
3.- Resultados que pueden ser libremente modificados, adaptados o tomados como base

Según parece google se fija en los enlaces hacia las licencias Creative Commons para determinar el tipo de licencia de cada resultado.

Yahoo ya cuenta desde hace meses con un buscador para Creative Commons.

vía google blogoscoped

Google Personalizado en español

Me comenta Roberto que ya está disponible Google Personalizado en español. Google acaba de añadir a la página principal de Google.es un enlace en la parte superior derecha con la leyenda “Página principal personalizada”.
Hasta hace un momento yo no podía verlo, ahora si, luego se estará produciendo ahora mismo la mudanza.

Google ha añadido dos fuentes como ejemplos de sindicación. Webalia.com y Nosotras.com
Extraña elección?

Ah, en las diferentes secciones aparecen otras fuentes más conocidas:
Barrapunto, Xataka, Baquia, Libertad Digital….