Los primeros sitios web surgieron en los años 90 principalmente en el ámbito universitario. El primer buscador fue creado por Alan Emtage en 1990 y su nombre era Archie. Hasta entonces la información era compartida haciendo uso del protocolo ftp y ofreciendo accesos anónimos. El principal problema de este primitivo sistema es que el usuario casi siempre ya conocía la información que deseaba consultar y no era posible realizar búsquedas libres.

En 1993 el sistema Verónica para el intercambio de ficheros vía Gopher En Octubre de 1993 Koster creó ALIWEB (Archie Like Indexing of the Web) que permitía a los usuarios dar de alta sus páginas junto con una descripción.

1993 supuso también el despegue de los primeros robots con Jumpstation y WWW Worm y Repository Based Software Engineering siendo este último sistema el primero en establece un sistema de de los contenidos.

También en 1993, surge Excite, un proyecto que evolucionó a partir de Architext. Architext y Excite constituyeron las primeras experiencias en aplicar estadísticos a las palabras con objeto de realizar búsquedas más inteligentes.

En 1994 aparece EINet Galaxy, el primer directorio con un uso generalizado, ofrecía no sólo referencias web si no también referencias ftp y Gopher. Este mismo año, David Filo y Jerry Yang crearon como un proyecto personal de direcciones favoritas con un sencillo elemento diferenciador, incluían una breve descripción de cada URL en el directorio. El mismo mes Brian Pinkerton de la de Washington desarrollaron WebCrawler, el primer rastreador capaz de analizar e indexar páginas completas.

Lycos, un desarrollo realizado en la de Carnegie Mellon alrededor de 1994 y que fue dirigido por Michale Mauldin. En Julio de 1994 Lycos comenzó a utilizarse de forma abierta con un catalogo inicial de 54.000 documentos. Este catalogo alcanzó en dos meses los 390.000 documentos y a los dos años, en noviembre de 1996, alcanzó lo 6 millones de documentos.

Infoseek comenzó su explotación en 1994 y aunque no aportó grandes innovaciones, en 1995 alcanzó un acuerdo con Netscape para que fuera utilizado en su navegador como sistema de búsqueda por defecto.

Altavista entró en escena aproximadamente en diciembre de 1995 siendo el primer buscador en ofrecer: búsquedas en lenguaje natural, técnicas avanzadas de búsqueda y de los enlaces como elemento de recomendación por citación.

El directorio Looksmart apareció en 1996. El mismo año Iktomi desarrolló su motor de búsqueda Hotbot que fue adquirido por con objeto de suplir las capacidades de recolección de información que hasta la fecha era realizado por .

En abril de 1997 fue lanzado Ask Jeeves el mismo año en el que comenzó su explotación Northern Light.

1998 supone el gran año de los con la aparición de . La principal innovación de este buscador fue la aplicación de un sistema de de la importancia de cada página basado en los enlaces recibidos como recomendaciones por citación. Para muchos autores, esta innovación supuso un gran avance en la ‘democratización de ’.

Los avances tecnológicos aplicados por significaron un salto tan grande que sus principales competidores AOL y han utilizado hasta el año 2004 los servicios de para realizar sus búsquedas.

En 1998 Microsoft consciente de la importancia que tendrán los sistemas de acceso a la información en red, publicó Search. También el mismo año apareció el Open Directory Project, el primer gran directorio de sitios web gestionado completamente por editores humanos. Este directorio es utilizado por como un elemento de referencia en sus procesos de indexación de la información y su recuperación.

En 1999 Fast desarrolló su propia tecnología de búsqueda y actualmente es considerado como uno de los principales competidores de .

En el año 2000 Theoma apareció en el Mercado de los utilizando técnicas de clustering para la organización de los sitios web por materias. También este mismo año, un grupo de científicos de la de Carnegie Mellon fundan Vivisimo, una empresa orientada al desarrollo de software especializado en la recuperación y automática de documentos.

En el año 2003 introdujo la publicidad como elemento estratégico de su modelo de negocio con AddSense ofreciendo a los sitios web la posibilidad de obtener un retorno económico por el recibido. Desde noviembre de 2003 ha venido incluyendo múltiples mejoras que han hecho de este buscador el más utilizado a nivel mundial que se ha constituido como el rival a batir en el Mercado de los .

En 2003 Overture adquiere AllTheWeb y Altavista. Pos su parte adquiere Inktomi y Overture como parte de su estrategia de competencia con que le lleva en el año 2004 a prescindir de los servicios de búsqueda de para utilizar su propio buscador Slurp.

En el año 2004, Vivisimo lanzó Clusty un buscador que hace uso de las tecnologías de búsqueda y de documentación desarrolladas por Vivisimo. También este mismo año aparece el software Grokker desarrollado por la empresa Groksys dirigido a visualizar gráficamente clusters de documentos a partir de una consulta que es ejecutada por tradicionales como o .

La línea del tiempo de los elaborada por Marketwatch.com ofrece una visión global de la evolución de los desde su aparición. También es de interés desde el punto de vista de la interacción hombre máquina el estudio realizado por Brad A. Myers.

En el año 2005 aunque la oferta de continua creciendo, tres son los verdaderos protagonistas: Google, Yahoo! y MSN Search. Estos tres suponen entre el 85% y el 95% de todo el procedente de /directorios que llega a una web y sus bases de datos alimentan los resultados de otros muchos y meta . Estos tres están innovando de forma continuada para mejorar la calidad de las búsquedas y la usabilidad de sus servicios mientras que los nuevos competidores como Groxis aparentemente se centran en ofrecer nuevas formas de visualizar y filtrar los resultados mientras que hacen uso de las búsquedas de los tres grandes.

Utilización de

Los internautas hacen uso de los no como un elemento de ocio o recreativo si no como una herramienta que debe satisfacer una necesidad de información. En definitiva, los se configuran como el nexo de unión entre los servicios y contenidos ofertados y los demandados.

Un buscador debería ofrecer no sólo precisión en la búsqueda si no también herramientas de búsqueda, depuración y navegación que faciliten al usuario el filtrado del inmenso de información recuperada como resultado de una consulta.

Desde el punto de vista de la usabilidad de un buscador y teniendo presente que esta usabilidad está ligada a la obtención de una información demandada en el menor tiempo posible, la tecnología utilizada por los puede clasificarse en dos grandes bloques:

  • Tecnología Gestión Información: Tecnologías aplicadas a la recolección, indexación y recuperación de la información. Estas tecnologías tienen como meta el optimizar los procesos de gestión de la información siempre con el objetivo de incrementar la usabilidad del buscador y su calidad. Esta calidad podría medirse en base entre otras variables a las siguientes:
    • Recuerdo (Recall): Maximizar el número de documentos relevantes que son recuperados del total potencialmente disponibles.
    • Precisión: Maximizar el número de documentos relevantes entre los incluidos en el resultado.
    • : Ofrecer un sistema que clasifique los documentos en función de su importancia preferentemente relativa a la búsqueda.
  • Tecnología Interfaz: Tecnologías aplicadas a facilitar los procesos de búsqueda y navegación de los usuarios. Estas últimas tecnologías tienen un gran impacto en cuanto a la calidad de interfaces, usabilidad, accesibilidad, etc.

Los internautas realizan millones de consultas haciendo uso principalmente de los comerciales. El resultado de estas consultas ha sido tradicionalmente un listado de cientos de referencias web ordenadas según un criterio que no siempre está relacionado con la consulta si no más bien con la topología de .

El proceso que sigue un intenauta avanzado en la búsqueda de información queda recogido de forma esquemática en el siguiente diagrama de actividades:

En este diagrama se identifican las siguientes actividades:

  • Ejecutar Búsqueda: El internauta introduce su frase de búsqueda y se la envía al buscador para que la ejecute.
  • Obtener Resultados: El buscador devuelve al usuario un listado de referencias ordenadas según un criterio que puede estará relacionado con la consulta y otras variables. Posteriormente el usuario echando un vistazo a los primeros resultados, considerará la posibilidad de realizar de nuevo una consulta diferente para obtener resultados más relevantes.
  • Seleccionar y Revisar Documentos: Si los resultados son suficientemente relevantes, el usuario irá revisando documento a documento. Los usuarios más avanzados suelen ir guardando, imprimiendo o añadiendo a sus favoritos los documentos más relevantes para su posterior revisión.
  • Revisar Documentos Almacenados: Una vez analizados los documentos, el usuario procede a revisar en detalle los archivos que ha ido guardando.

Mientras que el de información en crece exponencialmente el problema de localizar información relevante se agrava y sorprendentemente la puerta que los usuarios tienen a , es decir los , centra su actividad en un interfaz pobre con una caja para que el usuario introduzca su búsqueda. El gran reto actual de los es el dotarse de herramientas que faciliten al usuario la ejecución de todas estas tareas de búsqueda y filtrado de información que actualmente les demandan tanto tiempo y en muchas ocasiones con resultados infructuosos.

Aunque los actuales permiten aplicar expresiones lógicas, hay que tomar en consideración que la mayoría de los Internautas carecen de conocimientos técnicos que les permita asimilar las posibilidades que les ofrece el utilizar este tipo de expresiones.

A continuación se recogen diversos artefactos orientados a la mejora de estos procesos y en consecuencia a la mejora de la usabilidad general de los .

Interfaces Avanzados de Búsqueda

Adaptativos

Los tradicionalmente han realizado sus búsquedas de forma independiente a las características de los usuarios. Sin embargo y puesto que el objetivo principal de un buen buscador es satisfacer en el menor tiempo posible una necesidad de información de un usuario con unas características específicas, parece razonable tomar en consideración estas características a la hora de ofrecer resultados.

Por ejemplo: un usuario que busque software minería podría estar interesado en un software para minería de datos o un software para gestión de empresas mineras.

Atendiendo a criterios de usabilidad, la información necesaria para realizar esta personalización de las búsquedas debería de ser transparente al usuario y no demandar un esfuerzo por su parte.

En los últimos años han surgido diversos sistemas que personalizan los adaptándolos a las características de los usuarios. Entre estos sistemas de adaptación destacan la adaptación de la página principal y las recomendaciones por hábitos de navegación.

Personalización de página principal

Una de las últimas innovaciones en los más populares y ha sido el ofrecer a sus usuarios la posibilidad de personalizar la página principal. Esta personalización permite la inclusión de diversos grupos de información como noticias, el tiempo, inversión, etc, que es actualizada cada vez que la página es refrescada. El objetivo de este tipo de personalización es ofrecerle al usuario información de alta importancia en el mismo interfaz que utiliza para realizar las búsquedas.

Recomendaciones por Hábitos de Navegación

Las estadísticas basadas en el comportamiento de la navegación de los usuarios es sin duda uno de los elementos más valiosos a la hora de establecer perfiles de usuario efectivos que permitan la personalización de las búsquedas. Este sistema ha sido utilizado por sistemas como WebWacher o Letizia aunque ninguno de estos dos sistemas han contado con un éxito comercial. Letizia fue un proyecto desarrollado el MIT que ofrecía recomendaciones de navegación a partir de los hábitos de navegación de los usuarios. Actualmente quizás la mejor referencia de esta técnica es Alexa.

El principal problema de esta técnica de personalización es que exige la instalación de un software en el pc del usuario que puede rozar el límite de la privacidad de los hábitos de usuario. Prueba de esto es que los software antispyware identifican el software Alexa como un software espía.

La información recopilada sobre los hábitos de navegación permite realizar recomendaciones sobre los sitios en los que están interesados usuarios de características similares. Las siguientes son las recomendaciones de Alexa para los usuarios interesados en la de Castilla la Mancha.


Histórico de Búsquedas

Los usuarios almacenan gran cantidad de información de forma latente en el histórico de navegación. Sin embargo los sistemas de gestión de históricos ofrecidos por los principales son muy ineficientes además de estar ligados al equipo desde el que se realizan las búsquedas en vez de al usuario. Los sistemas de gestión de histórico están orientados a facilitar la reutilización de los históricos de navegación. Entre estos sistemas destacan los dos de los principales y .

MyWeb

ofrece la posibilidad de almacenar las páginas que le resultan de interés al usuario de las siguientes formas:

  • A través de ! Toolbar.
  • Pulsando el enlace Save de la página de resultados del buscador.
  • Importando los bookmarks que tengamos en nuestro navegador o en nuestro My ! de manera automática.

    My Search History

ofrece a los usuarios la posibilidad de ir registrando sus búsquedas, las direcciones que le han sido de interés identificadas por haber sido accedidas por el usuario. El usuario obtiene grandes mejoras en cuanto a la usabilidad de buscador entre las que destacan:

  • Historio de las búsquedas por fecha de forma independe al ordenador desde las que se realiza la búsqueda.
  • Posibilidad de realizar búsquedas sólo sobre las páginas incluidas en su historial.


de Escritorio

En la batalla por acercar las herramientas de búsqueda al usuario, obviamente con el objetivo de fidelizarlo en el uso de un determinado buscador, los grandes han desarrollado un tipo de software al que podría denominarse de escritorio que permiten realizar búsquedas tanto en como en el propio equipo local.

Este tipo de software incorporan una versión reducida del robot del buscador que recolecta la información que hay almacenada en el disco en diversos formatos, desde archivos Word a las direcciones de email o el histórico de navegación. Las funcionalidades de búsqueda local mejoran notablemente las herramientas de búsqueda incluidas en el sistema operativo que debido al crecimiento exponencial de la información almacenada en un pc, han quedado obsoletas.

Todos los usuarios de ordenador, se han sentido en alguna ocasión absolutamente frustrados al no encontrar un archivo con información necesaria. Con este tipo de buscador, el disco duro del ordenador ha dejado de ser un agujero negro en el que localizar información era una tarea casi artesana.

Los dos de escritorio más utilizados son Desktop y Desktop. Ambos ofrecen características similares entre las que destacan:

  • Búsquedas en el Historio de : Permiten realizar búsquedas en todo el texto de sus mensajes, archivos y chats, y de páginas web que haya visitado.
  • Correo Electrónico: Permiten buscar mensajes de correo electrónico almacenado en el cliente habitual de correo.
  • Búsquedas Locales: Permite buscar información en todos los archivos del equipo, incluidos los de texto, html, Word, Excel, Powerpoint, PDF, MP3, imagen, audio y vídeo.

Para que la posibilidad de buscar esté permanentemente disponible para el usuario, este tipo de , incluyen la caja de consulta en la barra de tareas del escritorio del usuario.

Búsquedas Visuales

Modificación del Código HTML

La modificación del código HTML consiste en una técnica dirigida a indicar al usuario, de una forma clara, la posición de los términos en los que está interesado en el documento recuperado como resultado de una consulta.

Para destacar los términos buscados, algunas aplicaciones ha utilizado el recurso de incrementar la fuente de las palabras. Sin embargo, esta técnica aplicada a documentos HTML tiene el peligro de provocar la desconfiguración de parte del documento. Por este motivo parece que la tendencia actual es la utilización de los marcadores de color tal y como se marcan los documentos impresos.

Un buen ejemplo de esta técnica es el Agente de Búsqueda Copernic que se integra a través de una barra de navegación en el buscador del usuario y una vez activado marca las palabras. El siguiente es un ejemplo de una búsqueda sobre Castilla la Mancha realizada con este agente.


, y casi todos los comerciales ya incorporan este recurso como parte de sus barras de navegación.

Utilización de Imágenes

La utilización de sistemas basados en imágenes en sustitución de largos listados de referencias web facilita a los usuarios la labor filtrado y de la información.

Los listados tradicionales ofrecen una breve descripción de cada URL que debe ser analizada por el usuario para valorar la validez del resultado. En muchas ocasiones esta breve descripción es insuficiente o incorrecta y provoca una perdida de tiempo al abrir la URL y comprobar que no es relevante.

La utilización de imágenes de detalle de la página ofrece al usuario una imagen que le permite identificar páginas ya conocidas, , páginas personales, presencia de anuncios, etc.

Esta tecnología de imágenes es utilizada en sistemas operativos como XP al ofrecer la posibilidad de visualizar una vista preliminar de un fichero html.


Desktop ofrece una versión en explotación de la técnica propuesta al previsualizar los ficheros html junto a la dirección del documento permitiendo la identificación rápida de los documentos ya conocidos.

Búsquedas Geográficas

La relación entre los elementos físicos como los negocios ubicados en las ciudades y su presencia en es cada vez más fuerte y tiene una mayor demanda por parte de los usuarios. En los últimos dos años los principales ha puesto su objetivo en lo local frente a lo global y dentro de esta estrategia local se viene trabajando en tecnologías que permitan la georreferenciación de los recursos online.

Los dos lideres del mercado actual: y ofrecen este tipo de búsquedas aunque por el momento restringido a los Estados Unidos. ofrece a través de GoogleMaps la posibilidad de realizar búsquedas introduciendo algún elemento de georreferenciación como el nombre de una ciudad o un código postal.


Este tipo de interfaz permite buscar establecimientos cerca o lejos de un punto dado, o incluso en una calle concreta de una ciudad.

Para poder ofrecer este tipo de servicios los deben de contar con información geográfica actualizada que tiene un alto coste y además exige a los diferentes sitios web el ofrecer información entre sus contenidos y/o palabras clave sobre la localización física de negocio. Sin embargo, esta información que parece básica, a menudo no está disponible en páginas principales.

Por su parte ofrece el mismo tipo de servicios que Maps a través de Smartview

Georreferenciación del Internauta y del Servidor

La georreferenciación de los sitios web tradicionalmente se ha centrado en la identificación del dominio o la ip asociado al sitio. Esta información puede ser utilizada para consultar la base de datos WhoIs del NIC. En esta base de datos queda registrada información sobre la empresa titular

Para poder identificar el dominio al que pertenece la ip de un usuario de un buscador, se puede hacer uso de herramientas como Nslookup que descubre el dominio que al que está asignado. Por ejemplo al buscar la dirección 80.58.61.250, nos indica que es una dirección asociada al dominio rima-tde.net. Obviamente este dominio no lleva implícito el país en el que está localizado el cliente. Esta información puede ser localizada haciendo uso de las bases de datos Whois de la que se obtiene información como la siguiente en la que se índica que este dominio, rima-tde.net es una dirección de Telefónica empresa localizada en Madrid en la calle Gran vía.

Otra aproximación son sistemas como el IP2LL que asigna a cada IP unas coordenadas de latitud y longitud que permite la localización geográfica del sitio. Para la localización del equipo desde el que el usuario está realizando la consulta algunos sistemas analizan la ruta desde el pc hasta el servidor haciendo uso de herramientas como el sencillo tracert.

Los dominios ofrecen una aproximación al país bajo cuyo dominio está situado el sitio web. La limitación es obvia, no siempre el primer dominio informa del país en el que se localiza el web como ocurre con los dominios .com y .org.

La principal limitación de identificar el ordenador con la localización geográfica radica en que no siempre los sitios web alojados por un servidor está localizados geográficamente en el mismo país que a la que la ip está asociado. Por otro lado esta forma de localización queda limitada en el mejor de los casos a la localización de la empresa titular del dominio que no siempre coincide con la localización del servicio. Por lo tanto la georreferenciación del contenido es un elemento fundamental para ofrecer servicios como los ofrecidos por Map con cierta precisión.

Georreferenciación del Contenido

El contenido de un sitio web contiene diversa información con potencial para la referenciación espacial desde los poco precisos como el idioma que pueden ofrecer alguna aproximación sobre la localización hasta los más precisos como son las direcciones postales o en ocasiones en función del país, los números de teléfono como 91 5556790 en el que el prefijo 91 hace referencia Madrid.

A lo largo de los últimos años se ha llevado a cabo diversos intentos de codificar la localización haciendo uso de las etiquetas HTML. Este tipo de sistemas explotan la ventaja de que es el web el que mejor puede georreferenciar sus contenidos. La principal debilidad de este tipo de marcas es la ausencia de estándares para nombrar los lugares geográficos por ejemplo en varios idiomas. Destaca entre estos intentos Geotags un sistema que propone la inclusión de tres nuevas etiquetas en las páginas principales. Por ejemplo, las etiquetas para localizar geográficamente el Thyssen-Bornemisza serían las siguientes:


Sin duda la clave para ofrecer buenos resultados en servicios como Map es necesario asociar el contenido de las páginas web con el servicio ofrecido en el mundo real.

Agentes

Un agente es un software que funciona de forma más o menos autónoma, que interactúa con otros agentes incluidos los usuarios humanos y que tiene por objetivo la resolución de problemas complejos. En el ámbito de este estudio tan sólo se consideran los agentes cuya misión es ayudar en la búsqueda y el filtrado de grandes volúmenes de datos localizados en .

El concepto de agente es muy amplio, los mismos son agentes de búsqueda que a su vez hacen uso los robots, unos agentes de recolección de información. Por lo tanto pueden realizarse múltiples clasificaciones tanto desde un punto de vista tecnológico como desde el tipo de información sobre el que realizan su trabajo.

Han destacado en los últimos años los agentes asociados al comercio electrónico dedicados a realizar agregaciones de precios o realizan recomendaciones en base a perfiles de navegación generados haciendo uso de técnicas de minería de datos sobre los logs de navegación y la base de datos con los productos y transacciones del comercio virtual.

Agentes de Recuperación de Información Especializada

Los agentes de recuperación de la información centran su actividad en navegar la web de forma automática para la recolección de cierto tipo de información. Los robots como GoogleBot son un ejemplo típico de este tipo de software. Sin embargo hay otros que realizar búsquedas en áreas temáticas más restringidas como puede ser CiteSeer.

Citiseer es un agente de búsqueda cuyo objetivo es ayudar a investigadores en la identificación de documentos relevantes en base a las recomendaciones por citación. Con este sistema el usuario parte de un conocimiento colectivo ya generado por medio de las citaciones y que define la importancia de un documento.

Básicamente, este agente ayuda al usuario en tres aspectos:

  • Busca de manera autónoma información relevante en la red centrando su actividad principalmente en ficheros de los denominados ricos: pdf, rtf y ps.
  • Incorpora los documentos indexados a su base de datos y permite realizar búsqueda sobre los mismos.
  • Analiza y establece las relaciones existentes entre documentos por referencias bibliográficas estableciendo relaciones ánticas entre sus contenidos.

Tal y como se indicaba al definir el concepto de agente, este tipo de software puede interactuar con otros agentes, es el caso de CiteSeer Browser. Un agente desarrollado sobre el software de representación gráfica TouchGraph y que muestra mediante un gráfico las relaciones por citación existentes entre documentos científicos. Este agente toma como punto de partida el nombre del fichero asociado a un documento de Citeseer, consulta en Citeseer los documentos relacionados y lo presenta gráficamente mediante nodos que representan los documentos y arcos dirigidos que representan las citaciones.

El gráfico generado es interactivo y permite navegar entre los documentos descubriendo nuevas citaciones y nuevos documentos relacionados con el de partida. Este sistema facilita al usuario la navegación entre cientos de líneas de texto sustituyéndola por una navegación gráfica que es mucho más efectiva.


Agentes de Integración de Búsqueda

Estos agentes han sido diseñados con el objetivo de aproximar las posibilidades de búsqueda tanto local como en al escritorio del Usuario. Ejemplos claros de este tipo de agente son las barras de navegación que los principales ofrecen como add-in de los principales .

Un paso más en la integración de la búsqueda en el entorno ofimático de trabajo de los usuarios son los de escritorios ya descritos.

Agentes de Búsqueda Avanzada

Estos son agentes cuya misión es facilitar la labor de gestionar la ingente cantidad de documentos que un usuario recibe como resultado de una consulta. Este tipo de agentes puede estar diseñado como una aplicación autónoma o como un elemento añadido a los navegadores como son las barras de navegación.

Este tipo de agentes hace uso de diversos en función del tipo de información buscada con objeto de obtener una mayor precisión en los resultados. También permiten la navegación fuera de línea sobre los resultados además de mantener un histórico de las consultas realizadas.

Copernic es quizás uno de los Agentes de Búsqueda Avanzada más destacables. Es un agente metabuscador que cuenta con una aplicación con todos los elementos necesarios para gestionar búsquedas. Dispone también de una barra de navegación que se integra en el explorador.

Copernic ofrece al usuario un sencillo interfaz con las siguientes zonas:

  • Historico de Búsqueda: Visualiza un listado con todas las consultas realizadas por el usuario. Dispone tambien de la posibilidad de guardarlas y agruparlas en lo que podría llamarse proyectos de consulta.
  • Temas de Búsqueda: Visualiza un listado de temas sobre los que se realizará la consulta. Copernic, en función del tema de la consulta, seleciona un buscador u otro.
  • Resultados de la Busqueda: Muestra un listado con las páginas recuperadas para una consulta seleccionada. Las palabras clave utilizadas en la búsqueda son resaltadas facilitando al usuario la identificación de las más relevantes.
  • Opciones para Refinar: Estas opciones son sin duda uno de las mejores aportaciones de Copernic a la usabilidad en la gestión de las búsquedas. Tradicionalmente, la opción de realizar consultas sólo sobre los resultados ya obtenidos aparece en el pie de página y se reduce a una caja de consulta. Además de esta situación tan poco estratégica en la pantalla de búsqueda, como reducen el refinamiento a añadir la palabra o frase introducida a las utilizadas en la consulta inicial y ejecutar una nueva búsqueda.

Para refinar las búsquedas y facilitar al usuario la navegación en los resultados Copernic ofrece las siguientes funcionalidades.

  • Ordenación de resultados: Esta función permite personalizar el orden de los resultados dentro de una lista.
  • Agrupanción de Resultados: Esta función, permite personalizar la agrupación de resultados.
  • Filtrado de Resultados: Copernic permite aplicar filtros sobre los resultados ya obtenidos como resultado de una consulta.

Algunos de los campos más importantes que pueden ser utilizados para agrupar, ordenar y filtrar son los siguientes:

  • Estado: El estado identifica los resultados nuevos, los resultados de las páginas que han sido o no visitadas, los resultados marcados por el usuario, con notas añadidas por el usuario o los resultados de las páginas guardadas.
  • Región: La región identifica la geográfica de un resultado entre las siguientes: África, Asia, Australia, América central, Europa, Oriente medio, Norteamérica o Sudamérica.
  • Dominio: Esta variable identifica el dominio al que pertenece una página. Haciendo uso de un filtro con esta variable el usuario podría voisualizar tan sólo las páginas en España (dominio .es).
  • Tipo de documento: Este variables identifica el tipo de documento recuperado: archivos de texto, MS Word, PDF, PowerPoint, Excel.

    Agentes de Espía

Los usuarios que hacen un uso intensivo de la información en normalmente buscan información en un número reducido de sitios web buscando documentos o contenidos muy concretos. Por ejemplo, si se está interesado en conocer la covocatoria de una subvención que normalmente se publica en el sitio web de un ministerio determinado el usuario debería consultar diariamente esta página o hacer uso de un software que verificara periodicamente la página de las subvenciones y que enviara un un aviso cada vez que se modifique la página. Este sofwtare es un agente espia que el usuario puede programar para que envie notificaciones al encontrar cierta información en la Red.

Agentes espías como Googlealert (http://www.googlealert.com) nos avisa cuando aparecen novedades en los principales sobre un tema solicitado, noticias en periódicos, o cambios en cotizaciones bursátiles.

Agentes de Resumen

En el proceso de filtrado de la información recuperada en una consulta, los usaurios deben leer por encima cada documento para poder evaluar la relevancia del mismo. Este es un proceso que exige del usuario un gran esfuerzo intelectual y mucho tiempo. Los agentes de resumen tiene como objetivo el ayudar al usuario en esta fase de lectura previa. Los agentes de resumen utilizan técnicas de sumarización, identifican los conceptos claves contenidos en el documento un texto y generan un resumen compuesto por las frases más relevantes.

Al tratarse de un proceso automático, la calidad del resumen siempre es mejorable y es una de las lineas de mejora de este tipo de software. Sin embargo y a pesar de su discutible calidad, este tipo de resumenes permite al usuario conocer rapidamente el contenido del documento.

Este tipo de agentes no sólo centran su actividad en , tambien permiten la realización de resumenes de cualquier tipo de documento ofimático al que tenga acceso el usuario.


Copernic Sumarizer es un agente de resumen que permite al usuario generar resumenes desde su buscador, o desde el agente de búsqueda copernic. Al analizar con este agente dos capitulos de una tesis de sobre mantenimiento de software, se obtiene un listado de conceptos clave recogido en la imágen de la derecha que índica claramente que se trata de un documento sobre mantenimiento, con un fuerte componente de métricas y que habla más de mantenimiento correctivo que de otros como el perfectivo o adaptativo. En definitiva, un usuario que estuviera buscando información sobre mantenimiento software podría considerar este documento relevante sin necesidad de leerlo.

Multibuscadores

Los multibuscadores o meta son páginas de búsqueda que no disponen de una base de datos propia con documentación . Es decir, normalmente este tipo de no dispone de robots que rastreen la web recolectando documentos para su posterior indexación y . Los multibuscadores hacen uso de más tradicionales que si disponen de sistemas de recoleción e indexación de información.

Cuando un usuario realiza una búsqueda en un buscador de este tipo, el multibuscador lanza la busqueda a los asociados obteniendo una lista global de resultados en la que agrupa todos los documentos recuperados en todos los asociados. Posteriormente ordena esta lista en base a un algoritmo que estima la relevancia de cada documento.

La principal ventaja de este tipo de es que disponen virtualmente de una base de datos de documentos que es el resultado de la agregación de las bases de datos de cada uno de los asociados. Hay que tener en cuenta que en esta base de datos virtual se repiten documentos que están indexados por varios de los . La principal desventaja es que deben relizar diversas consultas online y una posterior ordenación de los resultados por lo que normalmente consumen más tiempo que los tradicionales.

Por otro lado, el problema de la sobre carga de información se multiplica en este tipo de siendo muy necesario para el usuario y de cara a mejorar la usabilidad el disponer de recursos para la agrupación de resultados por: buscador de origen, tipo de documento o temática de los mismos. Este tipo de incorpora este tipo de mejoras que actualmente son la categorización y la visualización gráfica.

Uno de los multi más utilizados es Metacrawler que realiza las búsquedas haciendo uso de los : , , LookSmart, Teoma, Overture, FindWhat.

Categorizadores

El clustering consiste en la agrupación de documentos similares en función de su contenido, los enlaces, las citaciones y cualquier otra variable que permita la categorización del documento. El objetivo principal de aplicar técnicas de clustering es ayudar al usuario en el filtrado de grandes volúmenes de documentos un problema derivado del inmenso número de documentos almacenados en la Red y que exige del usuario un consumo de tiempo excesivo.

Un sistema de categorización debe mejorar la usabilidad de un buscador tradicional y ofrecer clusters o categorías con las siguientes características:

  • Concisos: Deben estar integrados en la pantalla de consulta y ocupar un espacio no excesivo que permita visualizar tanto las categorías como los documentos asociados.
  • Comprensibles: Cada cluster debe representar una categoría lógica que facilite las búsquedas.
  • Exactos: El nombre del cluster debe expresar de forma clara el concepto que comparten las páginas que agrupa.
  • Diferenciados: Cada cluster debe estar bien diferenciado del resto.

Vivisimo, uno de los cluster más innovadores que acaba de poner en explotación comercial el buscador Clusty ofrece al usuario un sencillo interfaz con las siguientes zonas:

  • Categorías: Muestra un listado con las categorías generadas a partir del contenido de las páginas obtenidas como resultado ade una consulta.
  • Lista de : Muestra un listado con los que han sido utilizados en la ejecución de la consulta junto con el número de páginas que han sido recuperadas con cada buscador.
  • Lista de Páginas: Muestra un listado de las páginas asociadas a la categorías seleccionada pudiendo una misma página aparecer en varias categorías.

La forma de creación de los cluster depende de cada buscador pero generalmente combinan técnicas basadas en el contenido parcial, preferentemente título, descripción y otra información de cabecera de página y por otra parte categorías inferidas de estudios de webmining sobre el comportamiento de los usuarios en las búsquedas. Esta generación automática de las categorías permite que un mismo documento aparezca en varios clusters.

Recientemente la empresa Groxis ha desarrollado el software de búsqueda y categorización Grokker que permite visualizar las categorías de información y las páginas asociadas de forma gráfica. Al igual que Vivisimo es a la vez un meta buscador al recibir sus resultados de múltiples o fuentes de datos entre las que destaca y la Biblioteca del Congreso de los EE.UU.

El principal elemento diferenciador de Grokke frente a otros es la visualización de los resultados. Al igual que Kartoo nos encontramos con sitios web que realizan consultas haciendo uso de otros más tradicionales para después mostrar la información agrupada temáticamente y de forma gráfica. Son por lo tanto meta con interfaz visual.

Grokke ofrece al usuario un sencillo interfaz con las siguientes zonas:


  • Categorías: Muestra un gráfico con las categorías generadas on line a partir de las páginas obtenidas como resultado. Las categorías aparecen representadas como listado con las categorías generadas a partir del contenido de las páginas obtenidas como resultado ade una consulta.
  • Resumen de Página: Muestra un resumen de la página que ha sido seleccionada en el gráfico de categorías.

Temáticamente Especializados

El de información en está llevando a los usuarios sobre todo para usos procesionales a demandar de carácter vertical sobre un mercado determinado o un segmento del conocimiento. Este concepto de verticalidad en es bien conocido en el ámbito de los portales. Un portal vertical está orientado a ofrecer contenidos y servicios sobre un área especifica de negocio.

Los verticales recolectan información tan sólo de dominios que consideran están relacionados en mayor o menor medida con el tema en el que se especialice. Para poder identificar estos dominios se pueden seguir dos estrategias:

  • Identificación Humana: Un editor humano realizando búsquedas y analizando sitios web va generando una base de datos de dominios relevantes.
  • Identificación Automática: De forma automática se van realizando consultas haciendo uso de palabras específicas de área en el que se especializa el buscador. Como resultado de estas consultas se obtienen los dominios relevantes así como el número de páginas que contienen con las palabras buscadas. Este último dato permite realizar un de los dominios que puede ser utilizado posteriormente a la hora de ordenar los resultados.

Un buen ejemplo de buscador vertical es Nanoport un buscador sobre el tema de la nano tecnología dirigido a investigadores sobre este tema de múltiples áreas científicas.

Las búsquedas que el usuario realiza sobre este buscador se restringen a un número determinado de dominios que son visitados periódicamente por el robots de Nanoport para recolectar información.

Este buscador además tiene la capacidad de generar dinámicamente categorías de documentos, o clusters, que agrupan los resultados en vez de mostrarlos en un listado interminable.

Con objeto de facilitar aun más la navegación por los resultados, Nanoport visualiza estas categorías haciendo uso de técnicas de Treeview ya utilizadas con éxito en áreas como la financiera.

En este gráfico cada bloque representa una categoría y el tamaño del bloque índica el número de documentos que agrupa y por lo tanto la importancia comparativa del mismo.

Nuevos Dispositivos

Aunque siempre que se habla de nuevos dispositivos se hace referencia tanto a agendas electrónicas como a los teléfonos móviles, parece claro que el mercado se encamina a una convergencia. Las agendas electrónicas reducen su tamaño e incorporan posibilidades de conexión mientras que los teléfonos móviles incrementan sus pantallas y sus posibilidades de ejecutar código.

Para ambos tipos de dispositivos los grandes ya disponen de servicios de búsqueda. dispone de un servicio que permite la búsqueda local de restaurantes, tiendas y otro tipo de negocios a través del teléfono móvil y otros dispositivos portátiles.

Debido a las restricciones de las pantallas de estos terminales, la interfaz del servicio es de un minimalismo extremo, perfecto para las pequeñas pantallas de los terminales. Dos cajas, una en la que dice Qué, y otra que pregunta Dónde.

La gran oportunidad que ofrecen estos nuevos dispositivos es la posibilidad de localizar geográficamente el lugar desde el que se realiza la consulta y al tener georreferenciados los servicios y lugares de interés publicados en , es posible ofrecer respuestas locales a las consultas de los usuarios. De forma que por ejemplo, un usuario podría consultar los restaurantes de comida japonesa en el barrio en el que actualmente se encuentra.

Conclusiones y Tendencias Futuro

En este estudio se ha intentado ofrecer una visión del estado del arte de los desde el punto de vista del usuario y del interfaz que los servicios de búsqueda le ofrecen.

Ha queda fuera de este estudio todos los aspectos tecnológicos relacionados con la recolección e indexación de documentos en la red que constituyen los pasos previos y necesarios a la recuperación de dichos documentos como resultado de una consulta. Sobre este tema relacionado estrechamente con las técnicas de minería de datos que aplicadas a toman el nombre de minera web o web mining versara uno de mis próximos trabajos de .

Algunas conclusiones que se pueden realizar al finalizar este estudio son:

  • La información en seguirá creciendo de forma exponencial lo que incrementara el problema de la sobrecarga de información que además se vera agravado por el gran de información que queda obsoleta en la red y no se retira de los índices de búsqueda.
  • El número de usuarios de seguirá creciendo sobre todo en países con baja penetración de las tecnologías.
  • La información tendrá en su primer medio de publicación frente al papel exigiendo a los trabajadores a hacer uso de la red como herramienta ofimática imprescindible.

En cuanto a las tendencias de futuro de los desde el punto de vista de su interfaz de usuario, las más relevantes son las siguientes:

  • Los serán cada vez más necesarios y los usuarios les demandaran mejoras sobre todo en las funcionalidades de interfaz que optimicen los procesos de búsqueda y filtrado.
  • Sobre todo en círculos profesionales especializados irán surgiendo verticales muchos de los cuales harán uso de los tradicionales estableciéndose como un filtro entre estos y el usuario final.
  • El concepto visual y grafico es ira incorporando progresivamente a los con el objetivo de facilitar la navegación de los usuarios en los resultados.
  • No parece que el liderazgo de los grandes : , y este asegurado, por el contrario parece que existe un nicho de mercado mal cubierto relacionado son la usabilidad de las búsquedas y que podría ser cubierto por nuevos competidores como Copernic, Grokke u otros.

    Referencias

  • Alexandros Ntoulas, Junghoo Cho, Christopher Olston. What’s New on the Web? The Evolution of the Web from a Perspective
  • Time Line. Marketwatch.com
  • Brad A. Myers, 1998. A Brief History of Human Computer Interaction
  • Scott Henninger and Nicholas J. Belkin, 1996. Interface Issue and Interaction
  • Strategies for Information Retrieval Systems.In Proceedings of CHI 96.
  • http://www.alexa.com
  • http://maps..com
  • http://www.geotags.com
  • http://citeseer.ist.psu.edu
  • CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification
  • of Interesting Publications. Kurt D. Bollacker
  • http://desktop..es
  • http://desktop..com
  • http://www.copernic.com
  • http://vivisimo.com/docs/howitworks.pdf
  • http://www.copernic.com
  • http://www.kartoo.com
  • http://www.clusty.com
  • http://www.groxsy.com
  • http://www..com
  • http://www..com
  • http://nanoport.org
  • Allison Woodruff, Andrew Faulring, Ruth Rosenholtz, Julie Morrison, Peter Pirolli. Using Thumbnails to Search the Web.
  • Jonathan I. Helfmana and James D. Hollanb. Image Representations for Accessing and Organizing Web Information
  • Michael Chau, Hsinchun Chen, Jialun Qin, Yilu Zhou, Yi Qin, Wai-Ki Sung, Daniel McDonald.
  • Comparison of Two Approaches to Building a Vertical Search Tool: A Case Study in the Nanotechnology Domain
  • : what is and what is not
  • Source Communications of the ACM archive Volume 48 , Issue 2 (February 2005)
  • Supporting cooperative and personal surfing with a desktop assistant
  • Technology. ACM interactions. Vol. 5, no. 2, March, 1998. pp. 44-54.
  • Krishna Bharat and Bay-Wei Chang, 2003. Web Search Engines: Algorithms and User Interfaces.CHI 2003 Tutorial.
  • Jansen, B. J. and Pooch, U. 2000. Web user studies: A review and framework for future work. Journal of the American Society of Information Science and Technology. 52(3), 235 - 246.
  • Anett Kralisch and Bettina Berendt . Cultural Determinants of Search Behaviour on Websites.Humboldt University Berlin, Germany, Institute of Information Systems
  • Jaime Teevan1, Susan T. Dumais2, and Eric Horvitz. Beyond the Commons: Investigating the Value of Personalizing Web Search.
  • Microsoft Research.
  • Henry Lieberman, Christopher Fry,
  • and Louis Weitzman. Exploring the Web with Reconnaissance Agents.
  • Tingshao Zhu Russ Greiner .An Effective CompleteWeb Recommender System. Department of Computing Science University of Alberta
  • Kevin S. McCurley.Geospatial Mapping and Navigation of the Web.
  • Lieberman, H. Letizia. An Agent That Assists Web Browsing.
  • http://lieber.www.media.mit.edu/people/lieber/Lieberary/Letizia/Letizia-Intro.html
  • Kurt D. Bollacker, Steve Lawrence, y C. Lee Giles . CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification
  • of Interesting Publications.
  • George Buchanan and Matt Jones . Search Interfaces for Handheld Mobile Devices. Computing Science, Middlesex University, UK
  • Orkut Buyukkokten, Hector Garcia-Molina, Andreas Paepcke, Terry Winograd.
  • Power Browser: Efficient Web Browsing for PDAs
  • Jacob O. Wobbrock, Jodi Forlizzi, Scott E. Hudson, Brad A. Myers. WebThumb: Interaction Techniques for Small-Screen Browsers
  • Orkut Buyukkokten ,Hector Garcia-Molina , Andreas Paepcke. Focused Web Searching with PDAs.
  • Positioning: Trends for 2005January 13, 2005. Human Level Communications, 2003.
  • sha W. Vaughan, Helmut Degen, Marc Resnick, Peter Gremett. Best Practices and Future Visions for Search User Interfaces: A Workshop.
  • Brin,S. and Page, L. The Anatomy of a Large-Scale Hypertextual Web . In Procedings of the 7th International World Wide Web Conference (www7) Brisbane, Australia, Apr 1998.


Compartir:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • LinkedIn
Etiquetas: , , , , , , , , , , , , , , , , , , , , , , , ,

Los comentarios están cerrados.

Acerca de jesba.com
Página personal de Javier Espadas Bardón. Publicación de trabajos de investigación sobre marketing, posicionamiento, difusión, diseño y desarrollo en Internet.
#javier_espadas
    follow me on Twitter
    Calendario
    Febrero 2012
    L M X J V S D
    « Jun    
     12345
    6789101112
    13141516171819
    20212223242526
    272829  
    3WRS
    Web Research Studio
    Proyectos de investigación en Internet
    3wrs Proyectos de investigación en Internet