miércoles, 9 de junio de 2010

Google "toma cafeína" para brindar resultados más actualizados

Completó su nuevo sistema de indexación, Caffeine, capaz de proveer resultados de búsqueda 50% más recientes que el anterior. El nuevo índice de búsqueda almacena casi 100 millones de GB en una base de datos y agrega nueva información a un ritmo de cientos de miles de GB por día

oogle mejoró de esta manera la calidad de los resultados que ofrece, ya sea de páginas de diarios, foros o blogs, al ofrecer contenido relevante en un tiempo mucho más rápido desde que se publicó.

Cuando un usuario realiza una búsqueda en Google, Yahoo! o Bing, no se hace “en vivo” sino dentro de un índice ya creado por cada uno de los buscadores.

Si tenemos en cuenta que la cantidad de información almacenada en la web crece de forma exponencial a cada minuto, no es incorrecto pensar en que ese índice debería actualizarse más rápido.

Esto no es sólo para ofrecer una mejor calidad de información al usuario sino también para los autores del contenido, que esperan que éste sea encontrado en el momento en que lo publican.

“De modo que para estar a la par con la evolución de internet y responder a las expectativas cada vez más altas de los usuarios, hemos decidido crear Caffeine”, explicó Carrie Grimes, ingeniero en Software de Google.

“Nuestro índice viejo tenía varias capas, algunas de las cuales eran actualizadas a un ritmo más acelerado que otras, y la capa principal era actualizada cada par de semanas. Para actualizar una capa del antiguo índice, analizábamos la red completa, lo que obviamente equivalía a un retraso importante entre el momento en que encontrábamos la página y el momento en que la poníamos disponible para los usuarios”, dijo Grimes.

Ahora, con Caffeine, Google recorre la web en pequeñas porciones y actualiza sus resultados de manera continua y global. “A medida que encontramos nuevas páginas o nueva información en páginas ya existentes, podemos agregar esos datos directamente al índice. Esto significa que los usuarios pueden encontrar información más reciente, como nunca antes, sin importar cuándo o dónde fue publicada”, mencionó la empresa.

Caffeine permite indexar páginas web a una escala enorme. De hecho, cada segundo procesa cientos de miles de páginas en paralelo. “Si estuviéramos hablando de una pila de papeles, sería como si esa pila creciera a casi 5 kilómetros por segundo. El nuevo índice de búsqueda almacena casi 100 millones de gigabytes en una base de datos y agrega nueva información a un ritmo de cientos de miles de gigabytes por día. Se necesitarían 625.000 de los iPods más grandes para almacenar esa cantidad de información; y si esos iPods estuvieran puestos en fila ocuparían más de 64 kilómetros”, graficó Grimes.

No hay comentarios:

ShareThis