dc.description | Los macrodatos (big data) han sido muy usados en la inform?tica y en las grandes empresas, ya que en estas se puede visualizar la gran cantidad de informaci?n que se maneja hoy en d?a. Es tanta la informaci?n que entra y sale que a la vez es un reto su manejo. Big data es un t?rmino que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tama?o de entre una docena de terabytes hasta varios petabytes en un ?nico conjunto de datos. En el 2001 se realiz? un informe de investigaci?n en el que el analista Doug Laney del META Group [ahora Gartner] (Laney, 2016), defin?a ?el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad?. Hoy en d?a, se contin?a usando datos masivos y en mayor escala que hace 14 a?os, por lo tanto, para las empresas se hace necesario buscar herramientas que permitan dar soluciones a la demanda de grandes cantidades de datos para su procesamiento y an?lisis, tales son los casos de MapR, Cyttek Group, Cloudera y Hadoop, entre otros. ?Big Data es desde hace unos a?os el t?rmino de moda dentro del mundo de la inform?tica. Dicho de otra manera, durante 2012 y parte de 2013 el 60 % de los art?culos de opini?n de tecnolog?a avanzada hablan de Big Data como la nueva estrategia indispensable para las empresas de cualquier sector, declarando, poco menos, que aqu?llos que no se sumen a este nuevo movimiento se quedar?n ?obsoletos? en cuanto a la capacidad de reacci?n en sus decisiones, perdiendo competitividad y oportunidades de negocio contra su competencia.?1 Debido a todo lo anterior, estamos ante una realidad que no se puede cambiar y en la que se debe ir en la misma direcci?n con los avances de la ciencia y la tecnolog?a, por lo tanto, existe la necesidad de trabajar con una gran cantidad de datos, pero un mayor porcentaje de empresas no saben c?mo hacerlo. Esta investigaci?n va a servir como referencia para dar a conocer el uso de herramientas de big data en El Salvador, espec?ficamente a un sector del Gobierno. El Salvador, ubicado en Centroam?rica, es un pa?s muy peque?o en extensi?n territorial y poblaci?n en comparaci?n con otros pa?ses del mundo. En cuanto a la tecnolog?a, se trata de ir a la vanguardia sobre todo en ?mbitos como el de las telecomunicaciones. El concepto de big data es algo novedoso, pero con mucho impulso para incursionar con ?l como herramienta indispensable en las telecomunicaciones, pues las empresas se preguntan c?mo procesar y almacenar grandes vol?menes de datos y para luego analizarlos. Es tanta la informaci?n que se genera a diario en la web mediante las redes sociales, los buscadores y el almacenamiento de datos en la nube, etc.; por lo que resulta abrumador. Solo el hecho de saber c?mo se consigue captar y analizar dicha informaci?n es sorprendente. Tambi?n se sabe que las redes sociales hoy en d?a aportan mucha informaci?n relevante que los usuarios comparten libre y p?blicamente en la web. Para los que est?n inmersos en este medio, no es desconocido que a muchas personas les encanta publicar los lugares en los que est?n en un momento dado; las marcas que prefieren, ya sea de ropa, zapatos, accesorios, perfumes, comidas, restaurantes, etc. Todo esto es aprovechado por las empresas para detectar tendencias en el mercado y para enfocar las acciones que se van a llevar a cabo, algo que ayuda a tomar mejores decisiones y a que los resultados sean mejores. Por supuesto, las ventajas las obtendr?n aquellas empresas que sepan c?mo procesar y analizar esos datos; y es all? donde muchas se quedan estancadas al seguir haciendo los procedimientos cotidianos, por la ignorancia del uso de herramientas que facilitar?an el procesado masivo de datos en poco tiempo. Por otro lado, est?n los dataset p?blicos, que son archivos que se encuentran alojados en la nube de forma p?blica en distintos formatos; y es all? donde tambi?n surge el problema cuando los datos ya no son estructurados como com?nmente se ha acostumbrado a utilizarlos en las bases de datos relacionales tradicionales, pues estos se encuentran en formatos tales como JSON, CSV, DAT, ARFF, NCOL, etc. En estos casos se hace necesario el uso de herramientas que permitan almacenar y procesar ese tipo de ficheros. De all? que, en el Viceministerio de Vivienda y Desarrollo Urbano, del Ministerio de Obras P?blicas (MOP), est? enfrentando serios problemas para el almacenamiento de grandes cantidades de informaci?n relacionada con la vivienda en El Salvador, ya que los recursos actuales mediante bases de datos relacionales est?n sobrepasando los umbrales de almacenamiento por contener demasiada informaci?n; y porque la estructura SQL presenta grandes dificultades para administrarla. El MOP necesita encontrar una soluci?n que le permita ser replicada en otros viceministerios con problemas similares, como el de Transporte. Debido a la problem?tica existente en el Ministerio, tuvimos a bien tomarla en cuenta para poder ayudarles, y, en ese sentido, tener una relaci?n Universidad-Gobierno para poder hacer uso de herramientas propias de big data y as? hacer una propuesta que logre solucionar los problemas del procesamiento masivo de la informaci?n, del an?lisis de los resultados y de la visualizaci?n de los datos (ver anexo 1). Para ello se trabaj? con datasets proporcionados por el Viceministerio, los cuales estaban en formato CSV (Comma Separated Value) y conten?an una gran cantidad de datos sobre postulantes a vivienda de los 14 departamentos del pa?s y sus 262 municipios, adem?s de incluir a los extranjeros que tambi?n solicitan vivienda. Uno de los dataset, con 326,358 registros y 11 campos, tales como Id_Persona, P_Nombre, P_Nombre2, P_Apellido, P_Apellido2, P_Apellido3, P_sexo, P_Fecha_nacimiento, P_Id_Estado_ civil, ID_Depto, ID_Municipio. El otro dataset, con igual cantidad de registros y con 8 campos: Id_Persona, P_Apellido, P_Nombre, P_sexo, P_edad, P_Estado_civil, P_Depto, P_Municipio. Este ?ltimo con datos filtrados y sin basura, es decir, sin datos nulos o err?neos. Lo que se pretend?a con esa informaci?n es que al hacer uso de herramientas big data, el procesamiento de los datos y su an?lisis respectivo para la toma de decisiones se hicieran en el menor tiempo posible para satisfacer la demanda de petici?n de vivienda de los habitantes postulantes. | |