El Google Personalizado del futuro

Si el video del anterior post parecía ciencia ficción, aquí va algo más de leña al fuego. Google ha anunciado que a partir de ahora dará más caña a la recolección de «datos privados» para su posterior uso en los resultados de búsqueda personalizados. Cada día será más dificil escapar de este nuevo gran hermano, quizás los resultados de búsqueda mejoren, pero claro, a costa de nuestra privacidad.
Philipp Lenssen escribió un interesante post relacionado con este tema, hablaba de la evolución de los buscadores, la utilización de inteligencia artificial y la personalización de los resultados ofrecidos por los buscadores.
Ahí va un pequeño ejemplo de como podría ser una de las personalizaciones del futuro. A los lectores del ABC y oyentes de la COPE, por supuesto, les ofrecerían una versión mucho más cercana a su realidad y necesidades.

Serph : Buscando el buzz

Serph es un buscador que puedes usar para encontrar lo que la gente está diciendo ahora mismo en la web. Fue creado para ayudar a encontrar el «buzz» sobre ti, tu empresa, tus competidores, tu marca favorita o incluso el último buzz sobre un tema específico.

Ahora mismo está en fase beta al cual solo se puede entrar mediante invitación. A mi me mandaron una tras registrarme hace unos meses.
Serph es un metabuscador cuyas fuentes son :
sphere, podzinger, topix, del.icio.us, flickr, bloglines, feedster, yahoo answers, technorati, digg, newsvine, google blogs, magnolia y youtube.

Interesante para seguir las noticias frescas sobre cualquier tema sin tener que ir uno a uno por todas esas fuentes.

La entrevista con Bernardo (Aka chocontrevista)

Para leer este post debes registrarte.
Actualización, 20Enero:
El Chocoentrevistado ha vuelto a abrir su weblog.

Si llegas a leer este post, una de tres:
– Te has registrado correctamente (felicidades)
– El plugin funciona mal y lo ves sin registrarte (avísame)
– Algún amigo te lo ha copy/pegado para que lo leas (esos son amigos)

La breve historia de este post:
– Una persona que actualmente trabaja en ACME (antes en Microsoft) escribe en su weblog personal su experiencia en una entrevista de trabajo con el director de marketing de Google (aka Bernardo) en una chocolatería. El post tiene un enlace a ojobuscador, en ojobuscador Tomy se hace eco del tema y publica un post. A las pocas horas el post desaparece y el blog del entrevistado también se evapora.
Hoy Tomy Lorch escribe un post explicando lo ocurrido:

Por solicitud del autor del artículo original al que se enlazaba y citaba aquí, hemos decidido retirar el enlace, contenido y citas del mismo. El autor ha manifestado que los contenidos fueron indexados por diferentes buscadores sin su conocimiento y consentimiento.

De Marketing sabrá mucho, pero de buscadores….

Pedimos a cualquier otro blog o similar que haya reproducido y/o intente reproducir los contenidos que aquí existían, que desistan de ello por respeto a la solicitud del autor.

Borrar posts, además de quedar feo (cada uno está por supuesto en su derecho de hacerlo) es, como siempre se dice, inútil. De modo que estando reproducido en otros lugares, no veo ningún inconveniente en reproducir aquí lo ocurrido. Además, el daño que el artículo le pudiera haber hecho al autor del post (aka el chocoentrevistado) ya está hecho, dado que Bernardo y compañía ya tienen conocimiento del mismo.
De todos modos publico este post en privado, como debiera haber hecho el chocoentrevistado, de tal forma que no quedará constancia en buscadores y similares.

El post original de ojobuscador.
El post original del chocoentrevistado (anunciando entrevista).
El post original del chocoentrevistado.

Ahí queda eso 😉
Ah, y no se os ocurra comentar nada de esto por ahí, y menos un miércoles! 😀

PD: Yo me portaría mejor con Google si me sobornaran un poquito… mientras, seguiré descojonándome con las chocotonterías de Bernardo el chocolatero. No me da tiempo a comentar cada una de ellas, estáis en vuestra casa para comentarlas vosotros 😉

Actualización, 20Enero:
El Chocoentrevistado ha vuelto a abrir su weblog 🙂
Lo comento en los comentarios.

Vive Live, nuestro nuevo blog

Después de una semana de pequeña ausencia, aunque me pudisteis leer en elqudsi.com, vuelvo a retomar este blog y a anunciar mi participación en otro blog (en este caso profesional): ViveLive.com.
Anunciar cosas en pleno día de inocentes siempre trae consigo pequeñas confusiones, aproveché ese día para «salir del armario» dejando en el aire una duda razonable que me permite mantener el anonimato sin «mentir» 😉 .

Pues nada, espero veros también por ViveLive.com :

Con este blog queremos acercaros en primera persona los distintos servicios que vayamos lanzando, o simplemente mostraros en lo que están trabajando nuestros ingenieros en servicios que aún son betas (versiones de pruebas) y en alguna ocasión ni si quiera eso Innovación, innovación, innovación!!

También hablaremos de las promociones o proyectos en los que estamos trabajando en España. En alguna ocasión os pediremos que participéis con ideas o comentarios. Si lo preferís nos podéis enviar un email a vivelive@microsoft.com

Feliz año a tod@s!!

El comando site: en google y explicaciones sobre actualizaciones

Hasta hace un año más o menos había cierta organización respecto al orden en que se listaban los resultados para el comando site: (ya ni me acuerdo como era antes).
Desde hace un año los resultados se comenzaron a listar al azar. Ahora, el comando site: tiende a listar las páginas de un dominio por orden de longitud de url. Cuanto más corta, más arriba aparecerá.

Esto lo explica Matt Cutts en los comentarios de un post donde explica la diferencia entre un cambio de algoritmo y los «data refresh».

Básicamente lo que dice es que un cambio en el algoritmo es algo gordo, que no pasa a menudo, y que los cambios que solemos ver se deben a actualizaciones del index, que son un tipo de data refresh (el más común) que ocurre diariamente (del 2000 al 2003 ocurrían semanalmente y se les llamaba Google Dance). Otros tipos de data refresh serían las actualizaciones de backlink visibles o del pagerank (que ocurren cada 3-4 meses).

Están los algoritmos, y los datos sobre los que operan los algoritmos. Gran parte de los cambios en datos (data refresh) son consecuencia de una actualización de nuestro index

Luego dice que desde hace un mes los data refresh en vez de ser mensuales son casi diarios.
Así que desde hace tiempo las actualizaciones de index son diarias y ahora también los data refresh. Todo claro, verdad?

Contenido duplicado y Google

Adam Lasnik (otro Matt Cutts) explica en el weblog oficial para webmasters de Google algunas cuestiones y consejos referidos al contenido duplicado en Google.
(Si no te fías de mi traducción chapucera, puedes leer la fuente original)

Qué es el contenido duplicado ?
El contenido duplicado se refiere a bloques de contenido significativo, dentro o entre dominios, que son completamente idénticos o muy similares. La mayoría de las veces no es intencionado o al menos no tiene un fin malicioso: foros o blogs con versiones para móviles, productos de tienda online con múltiples distintas urls… En algunos casos el contenido es duplicado entre dominios con la intención de manipular los resultados de búsqueda o aumentar el tráfico vía búsquedas populares o búsquedas residuales (long tail).

Qué no es contenido duplicado ?
Por ejemplo no consideramos contenido duplicado un mismo artículo escrito en inglés y español. Tampoco es considerado contenido duplicado pequeños fragmentos, referencias textuales de textos ajenos y similares.

Porqué Google se preocupa por el contenido duplicado?
Nuestros usuarios quieren ver contenido diverso cuando realizan una búsqueda. En contraste, es entendible que se molesten cuando encuentran el mismo contenido en diferentes páginas dentro de una misma búsqueda. También, los webmasters se preocupan cuando mostramos una url compleja (example.com/contentredir?value=shorty-george?=en) en vez de una url «más bonita» (example.com/en/shorty-george.htm).

Qué hace Google respecto a este tema?
Durante el rastreo y cuando servimos resultados de búsqueda, intentamos indexar y mostrar páginas con información única.
El filtro significa, por ejemplo, que si tu web tiene artículos en «formato estandar» y en versión para impresión y ninguna de ellas está bloqueada desde el robots.txt o vía el meta tag noindex, nosotros elegiremos una versión para ser listada.
En los casos raros en los cuales notamos que el contenido duplicado está siendo utilizado con la intención de manipular los rankings o engañar a los usuarios, también realizaremos los ajustes necesarios en el index y en el ranking de las webs implicadas. Sin embargo, preferimos centrarnos en filtrar más que en ajustes en el ranking…. por tanto, en la inmensa mayoría de ocasiones, lo peor que puede ocurrirle a un webmaster es que elijamos la «versión menos deseada» de una página en nuestro index.

Cómo puede un webmaster evitar problemas por contenido duplicado?
Bloquear apropiadamente: Ayuda a google a elegir la mejor versión de tus documentos. Bloquea las versiones duplicadas.
Utiliza 301s: Si reestructuras tu web, utiliza redirecciones 301 («Redirección permanente») en tu archivo .htaccess para redireccionar elegantemente a tus usuarios, a googlebot y a otras arañas.
Se consecuente: Utiliza siempre la misma versión de url para tus enlaces internos; no uses /pagina/ , /pagina y /pagina/index.html. En online.com.es explican una posible solución.
Utiliza TLDs: Para ayudarnos a elegir la mejor versión de un documento, utiliza dominios de primer nivel cuando sea posible para organizar el contenido para diferentes países. Un dominio .de nos sugiere que está enfocado a usuarios alemanes, mientras que un /de o de.ejemplo.com no nos ofrece tantas pistas (Lasnik puntualiza en wmw que si ya tienes un .com posicionado Google ya se encargará de averiguar la lengua de los documentos)
Sindica con cuidado: Si sindicas tus contenidos en otras webs, cerciórate de que incluyen un link a la versión original de cada artículo sindicado. Incluso con eso, ten en cuenta que elegiremos la versión más apropiada a los usuarios para cada búsqueda, lo que significa que para determinadas búsquedas podría aparecer la copia sindicada.
Utiliza la opción de dominio preferido en las herramientas para webmasters: Si otras webs enlazan con la versión www y la versión no-www de tu dominio, puedes hacernos saber cual de las dos versiones prefieres que indexemos.
Minimiza las repeticiones de texto: Por ejemplo, en vez de incluir un largo texto de copyright en la parte baja de cada documento, incluye un breve resumen y enlaza a una página con más detalles.
Evita páginas sin contenido: A los usuarios no les gusta encontrarse con páginas vacias, por tanto evita páginas que solo contienen la plantilla de tu web. Esto significa no publicar (o por lo menos bloquear) páginas sin reseñas, sin listados de pisos en venta para cierta zona, etc…
Entiende como funciona tu CMS: Comprende como se muestra el contenido de tu web, particularmente si éste incluye un blog, foro, o sistemas similares que muchas veces muestran el mismo contenido bajo diferentes formatos.
Dont worry be happy: No te ofusques demasiado con webs (planetas y similares) que duplican tu contenido. Siendo algo molesto, es difícil que estos sitios impacten negativamente el posicionamiento de tu web en google (aunque también podéis hacer caso a especialistas en posicionamiento). Si encuentras algún caso especialmente frustrante, puedes rellenar una petición DMCA para reclamar la autoría de cierto contenido.