Tesis
Estudio comparativo entre Apache Flink y Apache Spark : Medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse
Autor
Jaime, Rubén Alejandro
Institución
Resumen
El presente trabajo tiene como objetivo desarrollar un estudio comparativo entre Apache Flink y Apache Spark, partiendo de la medición de la performance en la ejecución de algoritmos tradicionales de un Datawarehouse. Para ello, la presente investigación se sustenta en el paradigma cuantitativo de tipo comparativo. Las técnicas de investigación son el análisis de documento y análisis de contenido. Los resultados develan que de tratarse de un proyecto que requiere de amplio volumen de procesamiento de datos, la opción es emplear Apache Spark, dada la facilidad para codificar y realizar numerosas tareas; adicionalmente se pudo develar que este framework dispone de abundante información y profesionales con competencias y experiencia para trabajar en este sistema. Por su parte Apache Flink se distingue por ser un framework diseñado para procesamiento de streaming, no cuenta con mucha información de fácil acceso y existe un número reducido de especialistas con dominio y experiencia en este campo; siendo dos desventajas para su selección. Además, es importante señalar que ambos framework son eficientes en la ejecución de tareas, aunque en cuanto a versatilidad se distingue Apache Spark, por cuanto que permite emplear su potencial en diversos lenguajes de programación. Asimismo, es de destacar que a través de la experimentación los mejores tiempos obtenidos para ambas herramientas se logran al modificar el storage y cuando se lo trabaja en un formato columnar. Facultad de Informática