Tesis/Trabajo de grado - Monografía - Pregrado
Reconocimiento de escenas violentas en imágenes de CCTV utilizando aprendizaje profundo
Recognition of violent scenes in CCTV images using deep learning
Registro en:
instname:Universidad Militar Nueva Granada
reponame:Repositorio Institucional Universidad Militar Nueva Granada
Autor
Hernández Díaz, Kelly Gissela
Institución
Resumen
El uso cada vez más generalizado de sistemas de videovigilancia para identificar acciones o situaciones violentas en lugares como bancos, hospitales o avenidas, ha provocado la necesidad de implementar un método que permita el reconocimiento automático de este tipo de escenas con el fin de evitar posibles riesgos a la seguridad e integridad de las personas. Por lo anterior, en el presente trabajo se propone un modelo de detección y clasificación de escenas violentas en imágenes de CCTV, basado en aprendizaje profundo. Específicamente, se utilizó el conjunto de datos CHU Surveillance Violence Dataset (CSVD), que corresponde a imágenes de videos de CCTV clasificadas en acciones tanto violentas como no violentas. Se evaluaron cuatro modelos pre-entrenados: VGG16, MobileNet, Inception y ResNet50, y mediante transferencia de aprendizaje se seleccionaron distintos puntos de congelamiento en cada una de sus arquitecturas. Adicionalmente, se emplearon tres optimizadores: Adam, Adadelta y SGD, con el fin de comparar su impacto en la clasificación de las imágenes. Para la evaluación del desempeño de los modelos a nivel de validación, se consideraron los valores obtenidos en las métricas Accuracy, Precision y Recall. Como resultado, el modelo proveniente de Inception logró un mejor rendimiento en general, a diferencia del modelo proveniente de ResNet50, que presentó los valores de métricas más bajos. 1 INTRODUCCIÓN
1.1 PLANTEAMIENTO DEL PROBLEMA
1.2 JUSTIFICACIÓN
1.3 PREGUNTA DE INVESTIGACIÓN
1.4 OBJETIVOS
1.4.1 Objetivo General
1.4.2 Objetivos Específicos
1.5 METODOLOGÍA
2 MARCO TEÓRICO
2.1 INTELIGENCIA ARTIFICIAL
2.2 APRENDIZAJE AUTOMÁTICO
2.2.5. Redes Neuronales Artificiales (ANN)
2.3. COMPUTER VISION
2.4. APRENDIZAJE PROFUNDO
2.4.1. Red Neuronal Convolucional (CNN)
2.4.2. Arquitecturas CNN
2.4.3. Hiperparámetros del modelo
2.4.4. Transferencia de aprendizaje
2.5 MÉTRICAS DE EVALUACIÓN
2.5.1 Matriz de confusión
2.5.2 Accuracy
2.5.3 Recall
2.5.4 Precision
3 ESTADO DEL ARTE
3.1 TÉCNICAS DE DETECCIÓN DE VIOLENCIA UTILIZANDO APRENDIZAJE PROFUNDO
3.2 CONJUNTOS DE DATOS PARA LA DETECCIÓN DE VIOLENCIA
4 FASE 1: ENTENDIMIENTO DEL PROBLEMA
5 FASE 2: COMPRENSIÓN Y PREPARACIÓN DE LOS DATOS
5.1 CONJUNTO DE DATOS CSVD
5.2 SELECCIÓN DE IMÁGENES PARA ENTRENAMIENTO Y VALIDACIÓN
5.3 PREPARACIÓN DE LOS DATOS: AUMENTO DE IMÁGENES
5.3.1 Rotación
5.3.2 Brillo
5.3.3 Desplazamiento de canal
5.3.4 Efecto espejo horizontal
5.3.5 Zoom
6 FASE 3: MODELADO
6.1 DISEÑO DEL PROTOCOLO DE PRUEBAS
6.1.1 Tipo de arquitectura
6.1.2 Profundidad de la red
6.1.3 Algoritmo de optimización
6.1.4 Métricas de evaluación
6.1.5 Diseño del protocolo de pruebas
6.2 DISEÑO DE LOS MODELOS
6.2.1 Elección del modelo pre-entrenado
6.2.2 Elección del punto de transferencia
6.2.3 Adición de capas top (FC) y de clasificación
6.3 AUMENTO DE DATOS CON IMAGEDATAGENERATOR DE KERAS
6.4 ENTRENAMIENTO DE LOS MODELOS
6.4.1 Compilación del modelo
6.4.2 Punto de control del modelo
6.4.3 Función model.fit()
7 FASE 4: EVALUACIÓN DE LOS MODELOS
7.1 DESEMPEÑO A NIVEL DE VALIDACIÓN
7.2 EVALUACIÓN DEL IMPACTO DEL MODELO
7.3 EVALUACIÓN DEL IMPACTO DEL OPTIMIZADOR
7.4 EVALUACIÓN DEL IMPACTO DE LA PROFUNDIDAD
8 CONCLUSIONES
9 REFERENCIAS
10 ANEXO A. RESULTADOS OBTENIDOS DE LAS MÉTRICAS DE EVALUACIÓN PARA CADA MODELO
11 ANEXO B. GRÁFICAS DE DESEMPEÑO A LO LARGO DE LAS ÉPOCAS The increasingly widespread use of video surveillance systems to identify violent actions or situations in places such as banks, hospitals or avenues, has led to the need to implement methods for automatic recognition of such scenes in order to avoid possible risks to the safety and integrity of people. Therefore, this paper proposes a model for detection and classification of violent scenes in CCTV images, based on deep learning. Specifically, the CHU Surveillance Violence Dataset (CSVD), which corresponds to CCTV video images classified into both violent and non-violent actions, was used. Four pre-trained models were evaluated: VGG16, MobileNet, Inception and ResNet50, and through transfer learning, different freezing points were selected in each of their architectures. Additionally, three optimizers, Adam, Adadelta and SGD, were used to compare their impact on image classification. To evaluate the performance of the models at the validation level, the values obtained in the Accuracy, Precision and Recall metrics were considered. As a result, the model from Inception achieved a better overall performance, unlike the model from ResNet50, which presented the lowest metric values. Pregrado L'utilisation de plus en plus répandue des systèmes de vidéosurveillance pour identifier des actions ou des situations violentes dans des lieux tels que les banques, les hôpitaux ou les avenues, a conduit à la nécessité de mettre en œuvre une méthode permettant la reconnaissance automatique de telles scènes afin d'éviter les risques éventuels pour la sécurité et l'intégrité des personnes. Par conséquent, cet article propose un modèle pour la détection et la classification des scènes violentes dans les images de vidéosurveillance, basé sur l'apprentissage profond. Plus précisément, le CHU Surveillance Violence Dataset (CSVD), qui correspond aux images vidéo CCTV classées en actions violentes et non violentes, a été utilisé. Quatre modèles pré-entraînés ont été évalués : VGG16, MobileNet, Inception et ResNet50, et différents points de gel dans chacune de leurs architectures ont été sélectionnés par apprentissage par transfert. En outre, trois optimiseurs, Adam, Adadelta et SGD, ont été utilisés pour comparer leur impact sur la classification des images. Pour évaluer la performance des modèles au niveau de la validation, les valeurs obtenues dans les métriques Accuracy, Precision et Recall ont été considérées. Par conséquent, le modèle provenant d'Inception a obtenu une meilleure performance globale, contrairement au modèle provenant de ResNet50, qui a présenté les valeurs métriques les plus faibles.