Wikia Search: fue lanzada oficialmente la primera versión
Publicado por tux el 07 Ene 2008 | Categoría: General, Informática, Actualidad, Tecnología, Internet
Se lanza oficialmente ‘Wikia Search‘, el buscador web “de código abierto, transparente y colaborativo” creado por los responsables de la popular Wikipedia. Hemos podido participar en la fase de pruebas (ahora se puede acceder de manera abierta en este enlace), y hemos podido ver cómo en la página de resultados (ver captura) se incluye el valor numérico de la relevancia de cada enlace para cada búsqueda, junto a la URL y al enlace de la versión caché. Este valor numérico enlaza con, por ejemplo, esta página, donde se explica de manera abierta cómo se ha calculado (ver captura).
‘Wikia Search’ utiliza la tecnología abierta de Nutch, una implementación de la API de Lucene para indexar y realizar búsquedas dentro de los documentos web que rastrean mediante la tecnología de Grub, el software que Wikia adquirió hace unos meses a la firma LookSmart. Aunque, en principio Grub se creó para rastrear la WWW de manera distribuida a través de los usuarios que lo instalasen en sus equipo, lo cierto es que a día de hoy solamente se están rastreando documentos para ‘Wikia Search’ desde ‘www.isc.swlabs.org’, el servidor de pruebas que está utilizando el buscador durante estos primeros días, que está provocando que en tus logs puedas sus entradas con el nombre de User-Agent “Grub/2.0″. Podéis realizar búsquedas en ‘Wikia Search’ también a través de esta URL: search.isc.swlabs.org.
El rastreador ‘Grub’ sería parte de la plataforma abierta ‘Atlas‘, ideada por Jeremy Miller (el creador del popular sistema de mensajería Jabber) para ‘Wikia Search’, y que serviría para crear “comunidades de búsqueda totalmente distribuidas”, y en la que todos los participantes tendrían un papel. Aquellos que tengan ‘Grub’ instalado en su equipo serían “fábricas de contenidos” y el proyecto pretende recolectar toda la información rastreada dentro de un mismo repositorio, que estaría a disposición pública mediante la licencia ‘GFDL‘.
‘Wikia Search’ utiliza además ‘Hadoop‘, la plataforma libre que permite ejecutar Nutch (y otras aplicaciones de software) en grandes clústers de servidores construidos con hardware a partir de componentes clónicos, y que es una implementación libre del famoso MapReduce de Google que le permite a éste disponer de su sistema de almacenamiento. Para construir este clúster, se utilizaron los casi mil servidores de los cuales se mostraron algunos en esta foto de hace unos días. Tanto Nutch, como Lucene y Hadoop están dentro del proyecto Apache, y son mantenidos principalmente por su creador, Doug Cutting, que es desde 2006 trabajador de Yahoo!. De hecho, esta empresa es la mayor impulsora de Hadoop a través del ‘clúster M45‘, aunque Google (en colaboración con IBM) también quiere investigar con él a través de otro clúster.
El buscador Nutch te permite crear tus propios algoritmos de búsqueda, y ‘Wikia Search’ pretende modificarlos para ofrecerles un componente social que otros buscadores no ofrecen directamente. De esta manera, se intentará que los usuarios de este buscador puedan tanto votar positiva o negativamente cada URL, como modificar manualmente los resultados de la clasificación realizada por el algoritmo. Por ahora, no hay ningún lugar para indicar un voto hacia cada enlace, pero para crear una reputación social de los usuarios, quizá siguiendo un modelo de semilla, se pueden establecer relaciones entre los usuarios, en las que además de indicar qué tipo de relación une a ambas personas (de trabajo, de amistad, etc.), se debe indicar obligatoriamente el nivel de confianza hacia el nuevo contacto (ver captura). Los perfiles de cada usuario (ver captura) son los característicos de una red social (lista de amigos, información personal referente a aficiones o películas favoritas, álbumes de fotos o una pizarra donde dejar opiniones sobre cada persona) que invitan a establecer relaciones.
Además, para cada página de resultados existe una página donde se puede discutir sobre su calidad (ver captura), y ofrece asimismo en la parte superior un “Mini Artículo” sobre el término buscado (por supuesto, editable por los usuarios mediante el software MediaWiki de la Wikipedia) y en la parte derecha una lista de usuarios que (creemos) han escrito dicho término en su perfil.
En estos momentos, el funcionamiento de ‘Wikia Search’ es bastante lento (suponemos que aún más durante estos días). Además, como podéis comprobar, el número de páginas indexadas es mínimo (por ejemplo si buscamos ‘paris‘ devuelve 253.000 páginas frente a los 545 millones si buscamos en Google) y el algoritmo no está en absoluto modificado, ofreciéndose una calidad muy mejorable en los resultados. Como han indicado sus responsables, se trata simplemente ésta de una presentación en público para que los usuarios podamos ir detectando errores, y nos vayamos familiarizando para poder colaborar, si así lo deseamos, en su mejora.
Tenéis más información en esta página web oficial.
Fuente: http://google.dirson.com