Objeto de conferencia
Procesamiento de flujo de datos : Un caso de estudio: análisis en tiempo real usando datos geolocalizados
Registro en:
isbn:978-987-1364-31-2
Autor
Fajardo, Hugo Manuel
Hasperué, Waldo
Institución
Resumen
La sociedad hoy plantea crecientes demandas de soluciones informáticas, cuando estas soluciones requieren el procesamiento de grandes volúmenes de datos, las herramientas tradicionales de procesamiento muestran limitaciones e inconvenientes derivados de la cantidad de datos a procesar o del tiempo necesario para realizarlo. Surge así, la necesidad de herramientas específicas, llamadas herramientas de Big Data. Dentro de estas existe un grupo concreto para el procesamiento de flujos de datos (stream processing), entendiendo por flujo de datos la recepción y procesamiento continuo de datos ilimitados desde diferentes fuentes. Debido a su naturaleza sin límite, estos flujos no pueden descargarse de manera completa, y deben ser procesados en línea a cuando se reciben.
Dos de las principales herramientas para el procesamiento de flujos de datos son Apache Spark y Apache Flink, estas herramientas serán el objeto de estudio del presente trabajo. El caso de estudio a desarrollar tiene por finalidad comparar distintos aspectos de ambas herramientas. Como caso de estudio se propone obtener publicaciones que incluyan las expresiones coronavirus y/o covid (SARSCoV- 2), y agrupar las mismas de acuerdo a su geolocalización, ya que esto permitirá monitorear la evolución de la enfermedad de acuerdo a la localización de los usuarios y su participación en distintos lugares de la web (redes sociales, comentarios en publicaciones, etc.). XIII Workshop procesamiento de señales y sistemas de tiempo real (WPSSTR) Red de Universidades con Carreras en Informática