Los anchor títulos de páginas excluídas

Google ha modificado el trato que da a los títulos de las páginas que no puede/debe visitar su bot pero que añade a las serps (ej. resultados de algún buscador). Siempre ha habido esta polémica de porqué lista unas páginas que los webmasters excluyen mediante el robots.txt. No las visita con su bot, no las cachea, pero si tienen enlaces hasta ahora las listaba añadiendo como título la url.

Desde hace algunos días, el título de este típo de páginas viene dado por el anchor de los enlaces que apuntan a ellas. De este modo podemos manipular los títulos de otras páginas mediante enlaces.

Por ejemplo, hace poco, en este post puse un enlace a los resultados de Google Trends. Este tipo de urls están marcadas como disallow en el robots.txt de Google. Vemos como en las serps el título de la página es el anchor que le puse.

Podemos ver por ejemplo:
– Páginas de resultados de google en google
– Páginas de resultados de live en google

Si tenemos un enlace a una página incluída en algún robots.txt, no hay problema. Pero, cuando hay más de un enlace apuntando a una de estas urls, cual prevalece?

Vamos a verlo con un ejemplo:
En esta búsqueda aparece primera una página excluída de un robots.txt. Vemos en Live que la enlazan varias webs.
Porqué se eligió como título el anchor de esta página y no otro? , qui lo sa…

Ale, tarea para el fin de semana. Encontrar una de estas páginas con anchor-títulos, que tenga varios enlaces y demostrar alguna teoría.

Relacionado con este tema, Tomy Lorsch hace varios días comentó que sucedía algo similar en Yahoo para cuando todas las páginas tienen el mismo título. (aunque no puso ningún ejemplo)

vía Lenssen.

3 comentarios en “Los anchor títulos de páginas excluídas”

Cuando hay varios me inclino que determinan aquel para el que la consulta de ese anchor exacto es más relevante.

Me explico, en el ejemplo que das tú, al buscar «se ha creado una lista» la página es la más relevante según Google (sale en primera posición porque buscas en inglés) para esa consulta. Esa página no saldría primera en Google para ninguno de los anchors que hay en las otras páginas que las enlazan.

Para verificar esto he comprobado los casos del foro de xeoweb donde hay muchas urls capadas vía robots.txt

En teoría creo que esto tendría sentido, porque en otro caso alguien podría provocar títulos no deseados en resultados no cacheados. Tanto la antigÃ¼edad, la importancia de una página o la aleatoriedad podrían provocar títulos nada deseados.

Eso sería válido para el título por defecto cuando hay varios anchors. Pero también habría que tener en cuenta que esto podría hacer cambiar el título en función de cómo busquemos: con un idioma, con otro, con google.com o google.es, porque la relevancia sería variable, y también en función de las consultas que estemos realizando. Algo que puedes ver en estas búsquedas que te dejo como respuesta a tu ejemplo: Título 1, Título 2 y Título 3.

Tengo el fin de semana libre? 😉

Responder ↓