Detección de ataques de tipo Fuzzer en redes IoT empleando algoritmos de clasificación de Machine Learning

Rodríguez Villamizar, Jenifer Paola

dc.contributor	Lozano Garzón, Carlos Andrés
dc.contributor	Montoya Orozco, Germán Adolfo
dc.contributor	COMIT
dc.creator	Rodríguez Villamizar, Jenifer Paola
dc.date.accessioned	2023-08-03T13:36:48Z
dc.date.accessioned	2023-09-07T02:05:11Z
dc.date.available	2023-08-03T13:36:48Z
dc.date.available	2023-09-07T02:05:11Z
dc.date.created	2023-08-03T13:36:48Z
dc.date.issued	2023-08-02
dc.identifier	http://hdl.handle.net/1992/69152
dc.identifier	instname:Universidad de los Andes
dc.identifier	reponame:Repositorio Institucional Séneca
dc.identifier	repourl:https://repositorio.uniandes.edu.co/
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/8728943
dc.description.abstract	El presente trabajo tiene como objetivo crear un módulo de seguridad basado en Aprendizaje Automático (Machine Learning) con el fin de detectar ataques de tipo Fuzzer. Después de llevar a cabo diversas pruebas con cuatro algoritmos (Support Vector Machine, Random Forest, K-NN y Redes Neuronales) y comparar los resultados obtenidos, se seleccionó el mejor algoritmo para la creación del módulo. Se recopilaron una variedad de métricas de las diferentes pruebas realizadas. La métrica principal utilizada para la selección del "mejor" algoritmo fue el Recall, ya que indica la cantidad de ataques reales que nuestro algoritmo es capaz de detectar. Durante las pruebas, se variaron diferentes características de la limpieza de datos, como la transformación de las variables categóricas "service" y "state" a variables binarias, y la eliminación de duplicados. Estos ajustes permitieron obtener una visión más completa del rendimiento de los algoritmos y tomar decisiones informadas para mejorar la detección de ataques de tipo Fuzzer. El dataset utilizado para el entrenamiento y prueba de los algoritmos presentaba un desbalance significativo, con poco menos del 10% de los datos correspondientes a ataques de tipo Fuzzer. Para abordar este problema, se emplearon las técnicas de SMOTE (Synthetic Minority Over-sampling Technique) y Undersample (submuestreo), variando la cantidad de datos generados sintéticamente y la cantidad de datos eliminados aleatoriamente. Asimismo, se ajustó la cantidad de datos utilizados para el entrenamiento con el fin de evitar sesgos de sobreentrenamiento. Después de realizar pruebas con múltiples combinaciones, se obtuvo que el algoritmo Support Vector Machine brindó el mejor resultado, logrando un "Recall" de 0.96.
dc.description.abstract	This work aims to create a security module based on Machine Learning to detect Fuzzer-type attacks. After conducting various tests with four algorithms (Support Vector Machine, Random Forest, K-NN, and Neural Networks) and comparing the results obtained, the best algorithm was selected for the module's creation. A variety of metrics were collected from the different tests performed. The main metric used to select the "best" algorithm was Recall, which indicates the number of real attacks our algorithm can detect. Different data cleaning features were varied during the tests, such as transforming the categorical variables "service" and "state" into binary variables and eliminating duplicates. These adjustments gave a more comprehensive view of the algorithms' performance and informed decisions to improve Fuzzer-type attack detection. The dataset used for training and testing the algorithms presented a significant imbalance, with slightly less than 10% of the data corresponding to Fuzzer-type attacks. To address this issue, techniques such as SMOTE (Synthetic Minority Over-sampling Technique) and Undersample were employed, varying the amount of synthetically generated data and the randomly removed data. Additionally, the data used for training was adjusted to avoid overfitting biases. After conducting tests with multiple combinations, it was found that the Support Vector Machine algorithm yielded the best result, achieving a Recall of 0.96.
dc.language	spa
dc.publisher	Universidad de los Andes
dc.publisher	Ingeniería de Sistemas y Computación
dc.publisher	Facultad de Ingeniería
dc.publisher	Departamento de Ingeniería Sistemas y Computación
dc.relation	S. Jill. «UNSW-NB15: A Comprehensive Data set for Network Intrusion Detection Systems».
dc.relation	Intel (2019) A guide to the Internet of Things infographics. https://www.intel.in/content/www/in/en/internet-of-things/infographics/guide-to-iot-new.html (Accedido el 02/09/2022)
dc.relation	A. M. Correa, «Millonario fraude con tarjetas de Transmilenio estaba advertido» El Espectador, Bogotá, 2016.
dc.relation	N. Abughazaleh, M. Btish, R. Jabal. (2020). «DoS Attacks in IoT Systems and Proposed Solutions». [En línea]: https://www.researchgate.net/profile/Nada-Abughazaleh-3/publication/342280827_DoS_Attacks_in_IoT_Systems_and_Proposed_Solutions/links/5fce358392851c00f858eb84/DoS-Attacks-in-IoT-Systems-and-Proposed-Solutions.pdf
dc.relation	G. V. Hulme, «6 DoS Attacks That Made Headlines CSO». (2017). [En línea]. Available: https://www.csoonline.com/article/3226399/6-dosattacks-that-made-headlines.html#slide7. [Accessed 14 3 2022].
dc.relation	Salazar J., Silvestre S. "Internet de las cosas". [En línea]. https://upcommons.upc.edu/bitstream/handle/2117/100921/LM08_R_ES.pdf [Accedido 21- 07 2023].
dc.relation	D. Evans. "Internet de las cosas Cómo la próxima evolución de Internet lo cambia todo". (2011). [En línea]: https://www.cisco.com/c/dam/global/es_mx/solutions/executive/assets/pdf/internet-of-things-iot-ibsg.pdf
dc.relation	O. López, I. Ochoa, A. Pibaque. "Desarrollo del producto para Test de penetración enfocado en el Fuzzing de aplicaciones".
dc.relation	Fabio A. González. Grupo de Investigación MindLab, Universidad Nacional de Colombia, Bogotá, Colombia. Revista Colombiana de Reumatología. Modelos de Aprendizaje Computacional en Reumatología. (2015) . http://www.scielo.org.co/pdf/rcre/v22n2/v22n2a01.pdf.
dc.relation	R. Medina, Ñique C. "Bosques Aleatorios como Extensión de los Árboles de Clasificación con los Programas R y Python". (2017).BosquesAleatoriosComoExtensionDeLosArbolesDeClasif-6230447.pdf
dc.relation	Gustavo A. Betancourt. "Las Máquinas de Soporte Vectorial (SVMs)". (2005). https://www.redalyc.org/pdf/849/84911698014.pdf
dc.relation	Mora-Florez, J. & Morales-España, Germán & Barrera-Cardenas, Rene. (2008). Evaluación del Clasificador Basado en los "k" Vecinos Más Cercanos para la Localización de la Zona en Falla en los Sistemas de Potencia. Ingeniería e Investigación, ISSN 0129-5608, Vol. 28, Nº. 3, 2008, pags. 81-86.
dc.relation	Tornero, Juan. "Machine Learning: Modelos Ocultos de Markov (HMM) y Redes Neuronales Artificiales (ANN) (2017) [En línea]: http://hdl.handle.net/2445/122446
dc.relation	C. Martínez. "ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)".(2018) [En línea]: https://rpubs.com/Cristina_Gil/PCA#:~:text=El%20PCA%20puede%20considerarse%20como,normalidad%20multivariante%20de%20los%20datos.
dc.relation	] Scikit Learn. "sklearn.feature_selection.RFE". [En línea]: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html
dc.relation	Carlos Zelada. "Evaluación de Modelos de Clasificación" (2017). [En línea]: https://rpubs.com/chzelada/275494
dc.relation	J. Martínez. IArtificial.net. "Precision, Recall, F1, Accuracy en Clasificación". [En línea]: https://www.iartificial.net/precision-recall-f1-accuracy-en-clasificacion/
dc.relation	J.A. Martínez Pérez, P.S. Pérez Martin. La Curva ROC. Medicina de Familia. SEMERGEN. Volume 49, Issue 1. 2023. 101821. ISSN 1138-3593. https://doi.org/10.1016/j.semerg.2022.101821
dc.relation	P. Sanahuja. "Entendiendo la Curva ROC y el AUC: Dos Medidas del Rendimiento de un Clasificador Binario que Van de la Mano". (2021). [En línea]: https://polmartisanahuja.com/entendiendo-la-curva-roc-y-el-auc-dos-medidas-del-rendimiento-de-un-clasificador-binario-que-van-de-la-mano/
dc.relation	J. Vindell. "Kappa de Cohen en R" 2021 [En línea]: https://rstudio-pubs-static.s3.amazonaws.com/780808_72bf307f744448aea37e4496446f14c9.html
dc.relation	Johan Hoyos. "Metodología de Clasificación de Datos Desbalanceados Basado en Métodos de Submuestreo." Colombia, (2019). [En Línea]: https://repositorio.utp.edu.co/server/api/core/bitstreams/767003ef-6a5a-4b19-8d13-0c3a25b8f128/content#:~:text=En%20t%C3%A9rminos%20de%20clasificaci%C3%B3n%2C%20cualquier,conjunto%20de%20datos%20de%20entrenamiento
dc.relation	Ricardo Borja-Robalino, Antonio Monleón-Getino, Jose Rodellar. RISTI (Revista Iberica de Sistemas y Tecnologías de la Información). "Estandarización de Métricas de Rendimiento para Clasificadores Machine y Deep Learning". https://www.researchgate.net/profile/Antonio-Monleon-Getino/publication/342009715_Estandarizacion_de_metricas_de_rendimiento_para_clasificadores_Machine_y_Deep_Learning/links/5ede3d0392851cf13869078e/Estandarizacion-de-metricas-de-rendimiento-para-clasificadores-Machine-y-Deep-Learning.pdf
dc.relation	A. Thakkar y R. Lohiya, «A Review on Machine Learning and Deep Learning Perspectives of IDS for IoT: Recent Updates, Security Issues, and Challenges» 2021. [En línea]. Available: https://doi.org/10.1007/s11831-020-09496-0. [Último acceso: 01 06 2022].
dc.relation	Link al DataSet: https://research.unsw.edu.au/projects/unsw-nb15-dataset
dc.relation	J. Martinez. Random Forest (Bosque Aleatorio): combinando árboles. 2020. [En línea]: https://www.iartificial.net/random-forest-bosque-aleatorio/. [Último acceso: 21 07 2023].
dc.relation	Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321-357. [En linea]: https://www.jair.org/index.php/jair/article/view/10302/24590
dc.relation	Liu, X.-Y., Wu, J., & Zhou, Z.-H. (2008). Exploratory Undersampling for Class-Imbalance Learning. IEEE Transactions on Knowledge and Data Engineering, Print ISSN: 1083-4419, Electronic ISSN: 1941-0492. IEEE.
dc.relation	M. G. Ismail, M. A. E. Ghany and M. A. . -M. Salem, "Enhanced Recursive Feature Elimination for IoT Intrusion Detection Systems," 2022 International Conference on Microelectronics (ICM), Casablanca, Morocco, 2022, pp. 193-196, doi: 10.1109/ICM56065.2022.10005438.
dc.relation	Imbalanced-learn. (s.f.). SMOTE (Synthetic Minority Over-sampling Technique). https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html#r001eabbe5dd7-1 [Último acceso: 26 de julio de 2023]
dc.rights	Atribución 4.0 Internacional
dc.rights	http://creativecommons.org/licenses/by/4.0/
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	http://purl.org/coar/access_right/c_abf2
dc.title	Detección de ataques de tipo Fuzzer en redes IoT empleando algoritmos de clasificación de Machine Learning
dc.type	Trabajo de grado - Pregrado

Este ítem pertenece a la siguiente institución

Universidad de los Andes (Colombia)