Conocer y modelar la topología de constituye una importante área de investigación en la minería de datos web. El conocimiento del modelo ajustado de la topología de permite optimizar sus protocolos de comunicación así como es desarrollo de modelos de inteligencia artificial que permitan extraer “inteligencia” de la Red. Este conocimiento de la Red es necesario entre otros motivos para :

  • Desarrollar estrategias eficientes de recolección de información (crawling)
  • Conocer los aspectos sociológicos de las generación de contenidos en la Red.
  • Diseñar y comprender algoritmos que hacen uso de los enlaces de la red para entre otros objetivos valorar la importancia de un documento como el Page Rank de .
  • Predecir la evolución de las comunidades constituidas por generadores de contenidos que establecen la comunidad mediante enlaces. Ravi Kumar et al. propone la identificación de estas comunidades mediante el descubrimiento de grafos del tipo bipartito. Un grafo bipartito es aquel con cuyos vértices pueden formarse dos conjuntos disjuntos de modo que no haya adyacencias entre vértices pertenecientes al mismo conjunto. Un ejemplo típico de este tipo de grafo son las estructuras de árbol.

    Otro de las estructuras sociales típicas en la Red son los anillos, grupos de sitios web relacionados temáticamente y enlazados entre sí de forma que el internauta puede ir recorriéndolos en orden.

  • Predecir nuevos fenómenos en la red que afecten tanto a su estructura topológica como a sus contenidos y el uso que se hace de los mismos.

Es una idea comúnmente aceptada el que sigue un modelo de crecimiento aleatorio. Hasta 1999, el modelo de grafos aleatorios fue el más utilizado para modelar la Red. Este modelo confería a su estabilidad ante la eliminación de alguno de sus nodos, es decir, si se elimina un nodo, aún es posible encontrar caminos entre cualquier par de nodos de la red .

Según indica el Dr. Alberto-Laslo Varabais, es realmente una red libre de escala. Este tipo de se caracteriza por estar compuesta por nodos y enlaces que se distribuyen de forma muy aleatoria al igual que ocurre con las sociales.

Ley de Potencias y Ley de Zipf

Georgos Siganos
et al. considera, tras un estudio de varios años, que la topología de se ajustan al modelo de la “ley de potencias”. Este modelo por el que algunos nodos acaparan la mayor parte de los enlaces de la red hace que actualmente sea muy arriesgado afirmar que tiene una topología a prueba de fallos ya que la caída de cualquiera de estos nodos podría significar desde la interrupción la capacidad de comunicación en parte de la Red.

Desde el punto de vista de los contenidos, es el producto de un trabajo colaborativo de millones de personas que redactan documentos web y los enlazan entre ellos mediante enlaces. En el resultado final se observa como la conocida ley de Zipf se cumple en diversos aspectos.

George Kipling Zipf fue un reputado lingüista de la de Harvard que investigó en torno a la riqueza del lenguaje utilizado en los textos escritos descubriendo que muchas palabras eran muy utilizadas frente a otras pocas que lo eran menos. Zipf considero que estos resultados sin duda constituían el reflejo de una cualidad humana como es la tendencia al mínimo esfuerzo .

El gráfico de las palabras refleja la ley de Zipf: pocas palabras son utilizadas muy frecuentemente mientas que muchas tienen a utilizarse en pocas ocasiones.

El gráfico del tamaño del texto refleja la llamada ley de Heaps: de forma empírica demuestra que conforme la riqueza del vocabulario, pasado un cierto umbral, no crece de forma proporcional al tamaña del texto.

Este fenómeno del mínimo esfuerzo, recogido en la ley de zipf, puede observarse en en:

  • El tamaño de las páginas.

  • El número de enlaces de entrada: El número de enlaces que recibe una página web es importante por: constituir el punto de entrada de parte de sus visitantes, ser recomendaciones que son consideradas por algoritmos de como el Page Rank, reflejar el grado de sociabilidad de la página. La distribución de los enlaces de entrada sigue según las observaciones realizadas por Andrei Broder et al es acorde a las leyes de potencia. El gráfico adjunto, que refleja las observaciones realizadas, ha sido extraído del informe “Graph structure in the web”

No sólo es importante el número de enlaces, también lo son: la calidad de los mismos basándose en la valoración de la página desde la que se establece el enlace así como la relación temática entre la página que enlaza y la enlazada.


  • El número de enlaces de salida: El número de enlaces que tiene un sitio web es importante por motivos similares a los de entrada con la diferencia de ser administrados por el responsable de la página de forma que pueden ser manipulados fácilmente mientras que los de entrada son generados de forma autónoma como parte del proceso global de edición en .

Al igual que con los enlaces de entra, según los observaciones realizadas por Andrei Broder et al. 8, su distribución es acorde a las leyes de potencia. El gráfico adjunto, que refleja las observaciones realizadas, ha sido extraído del informe “Graph Estructure in the web”

  • El número de palabras diferentes en un documento web: La diversidad de las palabras en los documentos pueden constituirse como un elemento claramente diferenciador que favorezca buenas posiciones en los . Obviamente, cuanto más especializada sea una palabra, menor será el número de documentos que la incluyen en y mayor será la probabilidad de aparecer en las primeras posiciones de los .
  • Palabras en colecciones de documentos: La diversidad de las palabras en colecciones de documentos o en toda la Red, influye sobre todo al limitar el vocabulario que los deben indexar de los documentos recolectados.
  • de los sitios Web: Jacob Nielsen ya sugería en 1.997 la vigencia de la ley de Zipf en la en términos de de los sitios web. De forma que los sitios más populares tenderán a ser menos que los poco populares y además esta crecerá de forma continuada .

Ley de Zipf en el ámbito de los museos en

Con objeto de verificar la validez de la ley de Zipf aplicada a la de los sitios web en el ámbito de los museos, se ha realizado el siguiente estudio que será ampliado en futuras revisiones:

  • Se han identificado haciendo uso de la herramienta WebQl los sitios web que respondieran a las consultas “ arte” o “art Museum” en limitando el a los primeros 500 resultados.
  • Se ha incluido una restricción que consiste en seleccionar tan sólo los sitios web que con las palabras Museum o en su URL.
  • El resultado obtenido han sido 163 sitios web de museos o similares.
  • Posteriormente, haciendo uso de una aplicación desarrollada en VisualBasic se han realizado varias mediciones en los , y Alexa . Los datos medidos han sido: el número de páginas , el número de enlaces reconocidos y la .

    Índice de Alexa

Alexa establece una de los sitios web en base a las preferencias de los usuarios de su barra de navegación. Esta a la que llama índice de , refleja la posición que ocupa un sitio entre los más visitados de forma que los índices menores reflejan una mayor .


El resultado obtenido queda reflejado en el siguiente gráfico en el que se observa que pocos sitios acaparan gran parte del mientras que la mayor parte de los sitios reciben comparativamente pocas visitas.

Páginas en y

El de páginas de un sitio son un reflejo cuantitativo de su importancia desde el punto de vista de los . Como ya se ha indicado previamente, en existen grandes volúmenes de datos que son opacos para los y en consecuencia nunca aparecerán en los resultados de las consultas.

Los siguientes gráficos ilustran el estudio realizado en y sobre los sitios web de museos identificados en la primera parte del estudio reflejan claramente que unos pocos sitios tienen más de 20.000 páginas mientras que la mayor parte tiene menos.


Enlaces Conocidos por y

El número de enlaces que recibe un sitio web es utilizado por los como datos para valorar su importancia siguiendo un modelo similar a las citaciones de la documentación científica. De forma que cuantas más citaciones reciba un sitio web en forma de enlaces, mayor será su reputación para los . Para un sitio web, una buena reputación significa: mejores posiciones en los resultados y mayor asignación de recursos para la recolección e indexación de sus páginas por parte de los .


Compartir:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • LinkedIn
Etiquetas: , , , , , , , , , , , , , , , , ,

Los comentarios están cerrados.

Acerca de jesba.com
Página personal de Javier Espadas Bardón. Publicación de trabajos de investigación sobre marketing, posicionamiento, difusión, diseño y desarrollo en Internet.
#javier_espadas
    follow me on Twitter
    Calendario
    Septiembre 2010
    L M X J V S D
    « Jun    
     12345
    6789101112
    13141516171819
    20212223242526
    27282930  
    3WRS
    Web Research Studio
    Proyectos de investigación en Internet
    3wrs Proyectos de investigación en Internet
    hit counters
    Data Recovery Software