Conocer y modelar la topología de Internet constituye una importante área de investigación en la minería de datos web. El conocimiento del modelo ajustado de la topología de Internet permite optimizar sus protocolos de comunicación así como es desarrollo de modelos de inteligencia artificial que permitan extraer “inteligencia” de la Red. Este conocimiento de la Red es necesario entre otros motivos para :
-
Desarrollar estrategias eficientes de recolección de información (crawling)
-
Conocer los aspectos sociológicos de las generación de contenidos en la Red.
-
Diseñar y comprender algoritmos que hacen uso de los enlaces de la red para entre otros objetivos valorar la importancia de un documento como el Page Rank de Google.
-
Predecir la evolución de las comunidades constituidas por generadores de contenidos que establecen la comunidad mediante enlaces. Ravi Kumar et al. propone la identificación de estas comunidades mediante el descubrimiento de grafos del tipo bipartito. Un grafo bipartito es aquel con cuyos vértices pueden formarse dos conjuntos disjuntos de modo que no haya adyacencias entre vértices pertenecientes al mismo conjunto. Un ejemplo típico de este tipo de grafo son las estructuras de árbol.
Otro de las estructuras sociales típicas en la Red son los anillos, grupos de sitios web relacionados temáticamente y enlazados entre sí de forma que el internauta puede ir recorriéndolos en orden.
-
Predecir nuevos fenómenos en la red que afecten tanto a su estructura topológica como a sus contenidos y el uso que se hace de los mismos.
Es una idea comúnmente aceptada el que Internet sigue un modelo de crecimiento aleatorio. Hasta 1999, el modelo de grafos aleatorios fue el más utilizado para modelar la Red. Este modelo confería a Internet su estabilidad ante la eliminación de alguno de sus nodos, es decir, si se elimina un nodo, aún es posible encontrar caminos entre cualquier par de nodos de la red .
Según indica el Dr. Alberto-Laslo Varabais, Internet es realmente una red libre de escala. Este tipo de redes se caracteriza por estar compuesta por nodos y enlaces que se distribuyen de forma muy aleatoria al igual que ocurre con las redes sociales.
Ley de Potencias y Ley de Zipf
Georgos Siganos
et al. considera, tras un estudio de varios años, que la topología de Internet se ajustan al modelo de la “ley de potencias”. Este modelo por el que algunos nodos acaparan la mayor parte de los enlaces de la red hace que actualmente sea muy arriesgado afirmar que Internet tiene una topología a prueba de fallos ya que la caída de cualquiera de estos nodos podría significar desde la interrupción la capacidad de comunicación en parte de la Red.
Desde el punto de vista de los contenidos, Internet es el producto de un trabajo colaborativo de millones de personas que redactan documentos web y los enlazan entre ellos mediante enlaces. En el resultado final se observa como la conocida ley de Zipf se cumple en diversos aspectos.
George Kipling Zipf fue un reputado lingüista de la Universidad de Harvard que investigó en torno a la riqueza del lenguaje utilizado en los textos escritos descubriendo que muchas palabras eran muy utilizadas frente a otras pocas que lo eran menos. Zipf considero que estos resultados sin duda constituían el reflejo de una cualidad humana como es la tendencia al mínimo esfuerzo .
El gráfico de las palabras refleja la ley de Zipf: pocas palabras son utilizadas muy frecuentemente mientas que muchas tienen a utilizarse en pocas ocasiones.
El gráfico del tamaño del texto refleja la llamada ley de Heaps: de forma empírica demuestra que conforme la riqueza del vocabulario, pasado un cierto umbral, no crece de forma proporcional al tamaña del texto.
Este fenómeno del mínimo esfuerzo, recogido en la ley de zipf, puede observarse en Internet en:
-
El tamaño de las páginas.
-
El número de enlaces de entrada: El número de enlaces que recibe una página web es importante por: constituir el punto de entrada de parte de sus visitantes, ser recomendaciones que son consideradas por algoritmos de ranking como el Page Rank, reflejar el grado de sociabilidad de la página. La distribución de los enlaces de entrada sigue según las observaciones realizadas por Andrei Broder et al es acorde a las leyes de potencia. El gráfico adjunto, que refleja las observaciones realizadas, ha sido extraído del informe “Graph structure in the web”
No sólo es importante el número de enlaces, también lo son: la calidad de los mismos basándose en la valoración de la página desde la que se establece el enlace así como la relación temática entre la página que enlaza y la enlazada.

-
El número de enlaces de salida: El número de enlaces que tiene un sitio web es importante por motivos similares a los de entrada con la diferencia de ser administrados por el responsable de la página de forma que pueden ser manipulados fácilmente mientras que los de entrada son generados de forma autónoma como parte del proceso global de edición en Internet.
Al igual que con los enlaces de entra, según los observaciones realizadas por Andrei Broder et al. 8, su distribución es acorde a las leyes de potencia. El gráfico adjunto, que refleja las observaciones realizadas, ha sido extraído del informe “Graph Estructure in the web”
-
El número de palabras diferentes en un documento web: La diversidad de las palabras en los documentos pueden constituirse como un elemento claramente diferenciador que favorezca buenas posiciones en los buscadores. Obviamente, cuanto más especializada sea una palabra, menor será el número de documentos que la incluyen en Internet y mayor será la probabilidad de aparecer en las primeras posiciones de los buscadores.
-
Palabras en colecciones de documentos: La diversidad de las palabras en colecciones de documentos o en toda la Red, influye sobre todo al limitar el vocabulario que los buscadores deben indexar de los documentos recolectados.
-
Popularidad de los sitios Web: Jacob Nielsen ya sugería en 1.997 la vigencia de la ley de Zipf en la popularidad en términos de tráfico de los sitios web. De forma que los sitios más populares tenderán a ser menos que los poco populares y además esta popularidad crecerá de forma continuada .
Ley de Zipf en el ámbito de los museos en Internet
Con objeto de verificar la validez de la ley de Zipf aplicada a la popularidad de los sitios web en el ámbito de los museos, se ha realizado el siguiente estudio que será ampliado en futuras revisiones:
-
Se ha incluido una restricción que consiste en seleccionar tan sólo los sitios web que con las palabras Museum o Museo en su URL.
-
El resultado obtenido han sido 163 sitios web de museos o similares.
-
Posteriormente, haciendo uso de una aplicación desarrollada en VisualBasic se han realizado varias mediciones en los buscadores Google, Yahoo y Alexa . Los datos medidos han sido: el número de páginas indexadas, el número de enlaces reconocidos y la popularidad.
Índice de Popularidad Alexa
Alexa establece una clasificación de los sitios web en base a las preferencias de los usuarios de su barra de navegación. Esta clasificación a la que llama índice de popularidad, refleja la posición que ocupa un sitio entre los más visitados de forma que los índices menores reflejan una mayor popularidad.

El resultado obtenido queda reflejado en el siguiente gráfico en el que se observa que pocos sitios acaparan gran parte del tráfico mientras que la mayor parte de los sitios reciben comparativamente pocas visitas.
Páginas Indexadas en Google y Yahoo
El volumen de páginas de un sitio son un reflejo cuantitativo de su importancia desde el punto de vista de los buscadores. Como ya se ha indicado previamente, en Internet existen grandes volúmenes de datos que son opacos para los buscadores y en consecuencia nunca aparecerán en los resultados de las consultas.
Los siguientes gráficos ilustran el estudio realizado en Google y Yahoo sobre los sitios web de museos identificados en la primera parte del estudio reflejan claramente que unos pocos sitios tienen más de 20.000 páginas indexadas mientras que la mayor parte tiene menos.

Enlaces Conocidos por Google y Yahoo
El número de enlaces que recibe un sitio web es utilizado por los buscadores como datos para valorar su importancia siguiendo un modelo similar a las citaciones de la documentación científica. De forma que cuantas más citaciones reciba un sitio web en forma de enlaces, mayor será su reputación para los buscadores. Para un sitio web, una buena reputación significa: mejores posiciones en los resultados y mayor asignación de recursos para la recolección e indexación de sus páginas por parte de los buscadores.







