Diseño de una arquitectura para el procesamiento distribuido de grandes volúmenes de datos

Huanca Marín, Julio César; Quina Quina, Luz Delia; Huancahuire Bravo, Claudio Isaias; Bravo Mendoza, Guido

info:eu-repo/semantics/article

Fecha

2021

Registro en:

http://repositorio.unaj.edu.pe:8080/handle/UNAJ/178

https://doi.org/10.47190/nric.v3i3.9

https://repositorioslatinoamericanos.uchile.cl/handle/2250/6541595

Autor

Huanca Marín, Julio César

Quina Quina, Luz Delia

Huancahuire Bravo, Claudio Isaias

Bravo Mendoza, Guido

Institución

Universidad Nacional de Juliaca (Perú)

Resumen

Actualmente, Big Data se ha convertido en un concepto que está presente en muchas actividades, y su importancia es debido a que es utilizado en diversos aspectos que conduzcan a mejorar decisiones en el campo empresarial y gubernamental. Es posible analizar los grandes volúmenes de datos, tanto estructurados como no estructurados, que a cada día aumentan en los diferentes negocios y campos del conocimiento. Para obtener resultados satisfactorios es importante diseñar una arquitectura físicamente en base a Hardware Commodity (homogénea, heterogénea), escalable horizontalmente y con tolerancia a fallas. De esta manera, actualmente, con la evolución de las herramientas, es conveniente utilizar un híbrido donde la parte lógica trabaja con el Framework Apache Hadoop 2.0, que realiza el procesamiento de datos en paralelo (utilizando YARN), con almacenamiento HDFS (Sistema de Archivos Distribuidos sobre Hadoop) y agregando Spark para el tratamiento en memoria con respuestas en tiempo real y la utilización de recursos gráficos mediante Apache Ambari.

Materias

Distribución Paralela

Mostrar el registro completo del ítem