Presentation
Análisis de la web de la ESPOL y afines, utilizando hadoop como una plataforma de procesamiento masivo de datos
Autor
Martínez Montero, Cinthia Piedad
Barcos Sinche, Carlos Fernando
Resumen
El presente documento muestra los resultados del análisis de la red de la
ESPOL, utilizando Hadoop como plataforma de procesamiento masivo de
datos. Gracias al estudio que se ha realizado, se ha podido demostrar que la
estructura de la Web de la ESPOL no tiene propiedades de pequeño mundo
(no es una red libre de escala), forma que usualmente toman muchas de las
redes reales, y que tiene gran incidencia en la “navegabilidad y accesibilidad
de la información en grandes redes de documentos” [18]. Esto dificultaría la
exploración de la Web de la ESPOL, y tendría una incidencia negativa en la
percepción de la utilidad (a los usuarios) de nuestra Web.
Para este estudio, utilizamos los índices obtenidos de la indexación de los
enlaces entrantes como salientes de las páginas Web del dominio
espol.edu.ec. Estos datos fueron procesados para así obtener la cantidad de
enlaces entrantes y salientes para cada uno de ellos. Además, los mismos
datos nos permitieron conseguir la distribución estadística de enlaces
(entrantes y salientes) de las paginas del dominio de la ESPOL, y así poder
comprobar que la misma no tiene las propiedades de una distribución de ley
de potencias (power law), un criterio fundamental que debe cumplir una red
para poder ser clasificada como libre de escala (scale free).
Finalmente, para validar este análisis se ha considerado estudios previos a
las redes de otras universidades, que sí muestran una estructura pequeño
mundo.