dc.contributorMatson Hernández, Camilo Eduardo
dc.contributorFundación Universitaria Konrad Lorenz
dc.creatorBogoya Contreras, Stephany Alejandra
dc.date.accessioned2022-12-07T19:48:22Z
dc.date.accessioned2023-09-06T19:53:12Z
dc.date.available2022-12-07T19:48:22Z
dc.date.available2023-09-06T19:53:12Z
dc.date.created2022-12-07T19:48:22Z
dc.date.issued2022
dc.identifierhttps://repositorio.konradlorenz.edu.co/handle/001/5140
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/8704687
dc.description.abstractEl presente proyecto de investigación evalúa la predicción de empresas marcadas como fraude en el sector de riesgos laborales, utilizando diferentes modelos de machine learning como lo son Random Forest, SVM, árboles de decisión y Gradient Boosting. El desarrollo del proyecto se realizó con datos reales que fueron proporcionados por una ARL Colombiana, los cuales cuentan con una muestra reducida de empresas detectadas como fraudulentas, por lo tanto, el estudio presenta una comparación de técnicas de manejo de desequilibrio de clases y los modelos de clasificación previamente mencionados. Se observa que la combinación que arrojó mejores resultados fue la técnica SMOTETOMEK con el modelo de clasificación de Random Forest con una especificidad (recall) del 0.99% la cual es la métrica de mayor interés para la aseguradora.
dc.description.abstractThis research project evaluates the prediction of companies marked as fraudulent in the occupational risk sector, using different machine learning models such as Random Forest, SVM, decision trees and Gradient Boosting. The development of the project was carried out with real data provided by a Colombian ARL, which has a reduced sample of companies detected as fraudulent, therefore, the study presents a comparison of class imbalance management techniques and the previously mentioned classification models. It is observed that the combination that yielded the best results was the SMOTETOMEK technique with the Random Forest classification model with a specificity (recall) of 0.99%, which is the metric of greatest interest for the insurer.
dc.languagespa
dc.publisherBogotá D.C : Fundación Universitaria Konrad Lorenz, 2022
dc.publisherEscuela de Posgrados
dc.relationBatista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, 6(1), 20–29. https://doi.org/10.1145/1007730.1007735
dc.relationClases de riesgo para cotización en la ARL según la actividad económica. (2017, febrero 19). SafetYA®; SafetYA. https://safetya.co/clases-de-riesgo-cotizacion-arl/
dc.relationGandhi, R. (2018, junio 7). Support vector machine — introduction to machine learning algorithms. Towards Data Science. https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47
dc.relationHernández, C. M. (2017). Redes Neuronales para Clasificación: Una aplicación al caso de Riesgos Laborales en Colombia. Pontificia Universidad Javeriana.
dc.relationKrmar, J., Džigal, M., Stojković, J., Protić, A., & Otašević, B. (2022). Gradient Boosted Tree model: A fast track tool for predicting the Atmospheric Pressure Chemical Ionization-Mass Spectrometry signal of antipsychotics based on molecular features and experimental settings. Chemometrics and Intelligent Laboratory Systems: An International Journal Sponsored by the Chemometrics Society, 224(104554), 104554. https://doi.org/10.1016/j.chemolab.2022.104554
dc.relationLei, S., Xinming, M., Lei, X., & Xiaohong, H. (2010). Financial data mining based on support vector machines and ensemble learning. 2010 International Conference on Intelligent Computation Technology and Automation.
dc.relationMatson, C (2017). Redes Neuronales para Clasificación: Una aplicación al caso de Riesgos Laborales en Colombia (trabajo de grado maestría). Pontificia Universidad Javeriana. Colombia.
dc.relationNaser, M. Z., & Alavi, A. (2020). Insights into performance fitness and error metrics for machine learning. En arXiv [cs.LG]. http://arxiv.org/abs/2006.00887
dc.relationRaghavan, P., & Gayar, N. E. (2019). Fraud detection using machine learning and deep learning. 2019 International Conference on Computational Intelligence and Knowledge Economy (ICCIKE).
dc.relationSeverino, M. K., & Peng, Y. (2021). Machine learning algorithms for fraud prediction in property insurance: Empirical evidence using real-world microdata. Machine Learning with Applications, 5(100074), 100074. https://doi.org/10.1016/j.mlwa.2021.100074
dc.relationVista de Hablar de fraude con base en indicadores. (s/f). Fasecolda.com. Recuperado el 31 de mayo de 2022, de https://revista.fasecolda.com/index.php/revfasecolda/article/view/701/669
dc.relationYe, Y., Wu, Q., Zhexue Huang, J., Ng, M. K., & Li, X. (2013). Stratified sampling for feature subspace selection in random forests for high dimensional data. Pattern Recognition, 46(3), 769–787.
dc.rightsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rightshttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://purl.org/coar/access_right/c_14cb
dc.rightsAtribución – No comercial – Sin derivar: permite que otros puedan descargar las obras y compartirlas con otras personas, siempre que se reconozca su autoría, pero no se pueden cambiar de ninguna manera ni se pueden utilizar comercialmente.
dc.titleDetección de fraude en afiliaciones a través de un modelo de clasificación de machine learning en una aseguradora de riesgos laborales en Colombia
dc.typeTrabajo de grado - Maestría


Este ítem pertenece a la siguiente institución