Trabajo de grado - Pregrado
Detección de DDoS e Intrusiones de red con ML en ambientes de nube
Fecha
2023-08-02Registro en:
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
Autor
Bolaños Pertuz, Juan Nicolás
Institución
Resumen
Hoy en día vemos cómo las organizaciones migran progresivamente una proporción mayor de sus servicios y procesos hacia la nube por las ventajas variadas de esta plataforma las cuales incluyen arriendo computacional, cargas especializadas, flexibilidad escalamiento, entre otros. De la misma forma, la tecnología se ha vuelto crítica para la operación de negocio, volviéndola un objetivo importante de atacantes informáticos para paralizar la continuidad de este, extraer información o destruirla, entre muchos otros. En los últimos años se ha visto un aumento significativo de ataques cibernéticos y las organizaciones cada vez cobran más conciencia sobre su responsabilidad de tener una postura de seguridad sólida frente a sus activos digitales.
Mover servicios a la nube representa riesgos de seguridad variados entre los que se encuentran la denegación distribuida de servicio (DDoS) y la intrusión de red (NI). Este trabajo de grado busca evaluar la utilidad y limitaciones del uso de modelos de Machine Learning (ML) a la hora de crear un sistema de detección de anomalías para identificar los ataques anteriormente mencionados.
Para cumplir con el objetivo planteado se consiguieron conjuntos de datos (datasets) que representan distintos escenarios de tráfico de red en los cuales podemos encontrar tanto tráfico normal, que nos permite establecer una base (baseline) que corresponde a un comportamiento normal, como tráfico maligno que incluye varias técnicas usadas para llevar a cabo un mismo de ataque. Estos conjuntos de datos usan tráfico real y tráfico generado de forma dinámica con el propósito de poder simular patrones nuevos de anomalías y poner a prueba la capacidad de aprendizaje de los modelos propuestos.
Debido a la estructura de los conjuntos de datos, en los cuales se encuentran un vector de características (features) así como etiquetas que indican si una determinada entrada es tráfico maligno o benigno, se decidió centrar el proyecto alrededor de los modelos basados en aprendizaje supervisado porque pueden lograr mejor rendimiento.
Como resultado de la evaluación, se obtuvo una precisión del 99% en el modelo con mejor rendimiento y un 96% en el de menor rendimiento. Este nivel de precisión es alto, esto se debe a la topología de red sobre la cual se crearon los datasets utilizados, en la cual solo se utilizan unas cuantas máquinas del lado del atacante para generar el tráfico maligno, lo que reduce el conjunto de direcciones IP de origen. De la misma forma, la alta precisión también se debe a patrones relacionados con el comportamiento de los protocolos de comunicación cuando hay ambientes de alto tráfico (debido a un ataque) a punto de saturar las máquinas destino.
Por último, se concluye que la alta precisión de los resultados tiene que ver con la topología de red usada y que dicho comportamiento puede ser una limitación para detectar otros tipos de ataques. Esta limitación se puede tratar en trabajos futuros desarrollando múltiples detectores entrenados sobre conjuntos de datos de diferentes fuentes para tener mayor variedad de topologías de red y patrones de tráfico maligno y benigno, cada detector se especializaría en un tipo diferente de ataque, pero al ser parte de un sistema, podrían complementar sus respuestas.