Generador de datos sintéticos para el monitoreo de transacciones con factores de riesgo de lavado de activos
Autor
González Martínez, Edwin Fernando
Institución
Resumen
Las redes neuronales adversarias generativas adversarias (GANs), es un algoritmo de arquitectura de alto nivel que son parte del conjunto de la inteligencia artificial y del aprendizaje automático. Las GANs son dos redes neuronales llamadas generador y discriminador, y estas dos redes neuronales compitan entre si creando así una optimización de los resultados de alta calidad. Las GANs fueron propuestas por Goodfellow en el año 2014 que buscaba otro tipo de enfoque de modelado generativo basado en redes generadoras diferenciables, su amplia aplicación en la tecnología no tiene límites. Su objetivo de aplicación aborda desde imágenes, textos, vídeos, sonidos entre otros. Además, existen una gran variedad de arquitecturas GANs donde busca la optimización dado a su tarea de aprendizaje y desarrollo de aplicación. El objetivo de trabajo de grado constituye en crear una red neuronal de alto nivel como las GANs para la creación de información sintética por medio de ayuda del aprendizaje supervisado. Además, se evalúa con métodos estadísticos multivariantes contrastar hipotéticamente por igualdad de promedios y homogeneidad de varianzas entre la información real y la sintética. Estos métodos científicos estadísticos multivariados permiten que la información sintética generada por las GANs sea de alta calidad y permitan recrear cierta cantidad de información para realizar análisis a gran escala. Además, la información real corresponde a un corresponsal no bancario de una ciudad en Colombia, por cuestiones de confidencialidad no se puede divulgar el nombre de la entidad bancaria y sus clientes. Se cuenta con información transaccional con 67244 registros y 7 variables. Con base a la información real del corresponsal no bancario se genera nueva información sintética por medio de las GANs, y contrastadas estadísticamente sus igualdades en promedios y varianzas. Dado a la información sintética para la identificar posibles casos de lavado de activos donde se quiere identificar patrones y características inusuales para mitigar el lavado de activos. Sin embargo, esto constituye que la información que se genere no puede ser publicada dado a que la información que se está analizando es sintética, por lo tanto, no se puede realizar análisis descriptivos o inferenciales estadísticos de la población.