Recognition of violent scenes in CCTV images using deep learning

dc.contributorBallesteros Larrotta, Dora Maria
dc.contributorRenza Torres, Diego
dc.creatorHernández Díaz, Kelly Gissela
dc.date2023-04-18T16:01:28Z
dc.date2023-04-18T16:01:28Z
dc.date2021-05-10
dc.date.accessioned2023-09-06T18:00:32Z
dc.date.available2023-09-06T18:00:32Z
dc.identifierhttp://hdl.handle.net/10654/43682
dc.identifierinstname:Universidad Militar Nueva Granada
dc.identifierreponame:Repositorio Institucional Universidad Militar Nueva Granada
dc.identifierrepourl:https://repository.unimilitar.edu.co
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/8693810
dc.descriptionEl uso cada vez más generalizado de sistemas de videovigilancia para identificar acciones o situaciones violentas en lugares como bancos, hospitales o avenidas, ha provocado la necesidad de implementar un método que permita el reconocimiento automático de este tipo de escenas con el fin de evitar posibles riesgos a la seguridad e integridad de las personas. Por lo anterior, en el presente trabajo se propone un modelo de detección y clasificación de escenas violentas en imágenes de CCTV, basado en aprendizaje profundo. Específicamente, se utilizó el conjunto de datos CHU Surveillance Violence Dataset (CSVD), que corresponde a imágenes de videos de CCTV clasificadas en acciones tanto violentas como no violentas. Se evaluaron cuatro modelos pre-entrenados: VGG16, MobileNet, Inception y ResNet50, y mediante transferencia de aprendizaje se seleccionaron distintos puntos de congelamiento en cada una de sus arquitecturas. Adicionalmente, se emplearon tres optimizadores: Adam, Adadelta y SGD, con el fin de comparar su impacto en la clasificación de las imágenes. Para la evaluación del desempeño de los modelos a nivel de validación, se consideraron los valores obtenidos en las métricas Accuracy, Precision y Recall. Como resultado, el modelo proveniente de Inception logró un mejor rendimiento en general, a diferencia del modelo proveniente de ResNet50, que presentó los valores de métricas más bajos.
dc.description1 INTRODUCCIÓN 1.1 PLANTEAMIENTO DEL PROBLEMA 1.2 JUSTIFICACIÓN 1.3 PREGUNTA DE INVESTIGACIÓN 1.4 OBJETIVOS 1.4.1 Objetivo General 1.4.2 Objetivos Específicos 1.5 METODOLOGÍA 2 MARCO TEÓRICO 2.1 INTELIGENCIA ARTIFICIAL 2.2 APRENDIZAJE AUTOMÁTICO 2.2.5. Redes Neuronales Artificiales (ANN) 2.3. COMPUTER VISION 2.4. APRENDIZAJE PROFUNDO 2.4.1. Red Neuronal Convolucional (CNN) 2.4.2. Arquitecturas CNN 2.4.3. Hiperparámetros del modelo 2.4.4. Transferencia de aprendizaje 2.5 MÉTRICAS DE EVALUACIÓN 2.5.1 Matriz de confusión 2.5.2 Accuracy 2.5.3 Recall 2.5.4 Precision 3 ESTADO DEL ARTE 3.1 TÉCNICAS DE DETECCIÓN DE VIOLENCIA UTILIZANDO APRENDIZAJE PROFUNDO 3.2 CONJUNTOS DE DATOS PARA LA DETECCIÓN DE VIOLENCIA 4 FASE 1: ENTENDIMIENTO DEL PROBLEMA 5 FASE 2: COMPRENSIÓN Y PREPARACIÓN DE LOS DATOS 5.1 CONJUNTO DE DATOS CSVD 5.2 SELECCIÓN DE IMÁGENES PARA ENTRENAMIENTO Y VALIDACIÓN 5.3 PREPARACIÓN DE LOS DATOS: AUMENTO DE IMÁGENES 5.3.1 Rotación 5.3.2 Brillo 5.3.3 Desplazamiento de canal 5.3.4 Efecto espejo horizontal 5.3.5 Zoom 6 FASE 3: MODELADO 6.1 DISEÑO DEL PROTOCOLO DE PRUEBAS 6.1.1 Tipo de arquitectura 6.1.2 Profundidad de la red 6.1.3 Algoritmo de optimización 6.1.4 Métricas de evaluación 6.1.5 Diseño del protocolo de pruebas 6.2 DISEÑO DE LOS MODELOS 6.2.1 Elección del modelo pre-entrenado 6.2.2 Elección del punto de transferencia 6.2.3 Adición de capas top (FC) y de clasificación 6.3 AUMENTO DE DATOS CON IMAGEDATAGENERATOR DE KERAS 6.4 ENTRENAMIENTO DE LOS MODELOS 6.4.1 Compilación del modelo 6.4.2 Punto de control del modelo 6.4.3 Función model.fit() 7 FASE 4: EVALUACIÓN DE LOS MODELOS 7.1 DESEMPEÑO A NIVEL DE VALIDACIÓN 7.2 EVALUACIÓN DEL IMPACTO DEL MODELO 7.3 EVALUACIÓN DEL IMPACTO DEL OPTIMIZADOR 7.4 EVALUACIÓN DEL IMPACTO DE LA PROFUNDIDAD 8 CONCLUSIONES 9 REFERENCIAS 10 ANEXO A. RESULTADOS OBTENIDOS DE LAS MÉTRICAS DE EVALUACIÓN PARA CADA MODELO 11 ANEXO B. GRÁFICAS DE DESEMPEÑO A LO LARGO DE LAS ÉPOCAS
dc.descriptionThe increasingly widespread use of video surveillance systems to identify violent actions or situations in places such as banks, hospitals or avenues, has led to the need to implement methods for automatic recognition of such scenes in order to avoid possible risks to the safety and integrity of people. Therefore, this paper proposes a model for detection and classification of violent scenes in CCTV images, based on deep learning. Specifically, the CHU Surveillance Violence Dataset (CSVD), which corresponds to CCTV video images classified into both violent and non-violent actions, was used. Four pre-trained models were evaluated: VGG16, MobileNet, Inception and ResNet50, and through transfer learning, different freezing points were selected in each of their architectures. Additionally, three optimizers, Adam, Adadelta and SGD, were used to compare their impact on image classification. To evaluate the performance of the models at the validation level, the values obtained in the Accuracy, Precision and Recall metrics were considered. As a result, the model from Inception achieved a better overall performance, unlike the model from ResNet50, which presented the lowest metric values.
dc.descriptionPregrado
dc.descriptionL'utilisation de plus en plus répandue des systèmes de vidéosurveillance pour identifier des actions ou des situations violentes dans des lieux tels que les banques, les hôpitaux ou les avenues, a conduit à la nécessité de mettre en œuvre une méthode permettant la reconnaissance automatique de telles scènes afin d'éviter les risques éventuels pour la sécurité et l'intégrité des personnes. Par conséquent, cet article propose un modèle pour la détection et la classification des scènes violentes dans les images de vidéosurveillance, basé sur l'apprentissage profond. Plus précisément, le CHU Surveillance Violence Dataset (CSVD), qui correspond aux images vidéo CCTV classées en actions violentes et non violentes, a été utilisé. Quatre modèles pré-entraînés ont été évalués : VGG16, MobileNet, Inception et ResNet50, et différents points de gel dans chacune de leurs architectures ont été sélectionnés par apprentissage par transfert. En outre, trois optimiseurs, Adam, Adadelta et SGD, ont été utilisés pour comparer leur impact sur la classification des images. Pour évaluer la performance des modèles au niveau de la validation, les valeurs obtenues dans les métriques Accuracy, Precision et Recall ont été considérées. Par conséquent, le modèle provenant d'Inception a obtenu une meilleure performance globale, contrairement au modèle provenant de ResNet50, qui a présenté les valeurs métriques les plus faibles.
dc.formatapplicaction/pdf
dc.formatapplication/pdf
dc.languagespa
dc.publisherIngeniería en Telecomunicaciones
dc.publisherFacultad de Ingeniería
dc.publisherUniversidad Militar Nueva Granada
dc.relationAlbawi, S., Mohammed, T. A., & Al-Zawi, S. (2017). Understanding of a convolutional neural network. 2017 International Conference on Engineering and Technology (ICET). https://doi.org/10.1109/icengtechnol.2017.8308186
dc.relationAlto, V. (2019, 5 julio). Neural Networks: parameters, hyperparameters and optimization strategies. Towards Data Science. Recuperado 14 de abril de 2022, de https://towardsdatascience.com/neural-networks-parameters-hyperparameters-and-optimization-strategies-3f0842fac0a5
dc.relationAnber, S., Alsaggaf, W., & Shalash, W. (2022). A Hybrid Driver Fatigue and Distraction Detection Model Using AlexNet Based on Facial Features. Electronics, 11(2). https://doi.org/10.3390/electronics11020285
dc.relationBermejo Nievas, E., Deniz Suarez, O., Bueno García, G., & Sukthankar, R. (2011). Violence Detection in Video Using Computer Vision Techniques. Computer Analysis of Images and Patterns, 332–339. https://doi.org/10.1007/978-3-642-23678-5_39
dc.relationComing Lopez, D. J., & Lien, C. C. (2020). Real-Time Human Violent Activity Recognition Using Complex Action Decomposition. 2020 International Computer Symposium (ICS), 360–364. https://doi.org/10.1109/ics51289.2020.00078
dc.relationCopeland, M. (2016, 29 julio). The Difference Between AI, Machine Learning, and Deep Learning? NVIDIA Blog. Recuperado 26 de marzo de 2022, de https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
dc.relationDeng, J., Dong, W., Socher, R., Li, L. J., Kai Li, & Li Fei-Fei. (2009). ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition. https://doi.org/10.1109/cvpr.2009.5206848
dc.relationDi, W., Bhardwaj, A., & Wei, J. (2018). Deep Learning Essentials: Your Hands-on Guide to the Fundamentals of Deep Learning and Neural Network Modeling. Packt Publishing.
dc.relationDitsanthia, E., Pipanmaekaporn, L., & Kamonsantiroj, S. (2018). Video Representation Learning for CCTV-Based Violence Detection. 2018 3rd Technology Innovation Management and Engineering Science International Conference (TIMES-iCON), 1–5. https://doi.org/10.1109/times-icon.2018.8621751
dc.relationGoodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning [Libro electrónico]. The MIT Press. Recuperado 20 de junio de 2022, de https://www.deeplearningbook.org/
dc.relationHoward, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Adam, H., & Andreetto, M. (2017). MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv. https://arxiv.org/pdf/1704.04861.pdf
dc.relationIBM Cloud Education. (2020, 20 octubre). Convolutional Neural Networks. IBM. Recuperado 29 de marzo de 2022, de https://www.ibm.com/cloud/learn/convolutional-neural-networks
dc.relationImage Augmentation on the fly using Keras ImageDataGenerator. (2020, 11 agosto). Analytics Vidhya. Recuperado 22 de abril de 2022, de https://www.analyticsvidhya.com/blog/2020/08/image-augmentation-on-the-fly-using-keras-imagedatagenerator/#h2_6
dc.relationInternational Business Machines. (s. f.). What is Computer Vision? IBM. Recuperado 26 de marzo de 2022, de https://www.ibm.com/topics/computer-vision
dc.relationIrfanullah, Hussain, T., Iqbal, A., Yang, B., & Hussain, A. (2022). Real time violence detection in surveillance videos using Convolutional Neural Networks. Multimedia Tools and Applications. https://doi.org/10.1007/s11042-022-13169-4
dc.relationJain, A., & Vishwakarma, D. K. (2020). State-of-the-arts Violence Detection using ConvNets. 2020 International Conference on Communication and Signal Processing (ICCSP), 813–817. https://doi.org/10.1109/iccsp48568.2020.9182433
dc.relationJana, A., & Gopalakrishna, M. T. (2016). Violence Detection in Surveillance Video-A survey. International Journal of Latest Research in Engineering and Technology (IJLRET), 11–17. https://www.researchgate.net/publication/321873996_Violence_Detection_in_Surveillance_Video-A_survey
dc.relationKadre, S., & Konasani, V. R. (2021). Machine Learning and Deep Learning Using Python and TensorFlow (1.a ed.). McGraw-Hill Education. https://www.accessengineeringlibrary.com/content/book/9781260462296
dc.relationKeras. (s. f.). Keras documentation: ModelCheckpoint. Recuperado 24 de abril de 2022, de https://keras.io/api/callbacks/model_checkpoint/
dc.relationKota, S. D. K. (2020, 17 mayo). Understanding Image Augmentation Using Keras(Tensorflow). Medium. Recuperado 22 de abril de 2022, de https://medium.com/analytics-vidhya/understanding-image-augmentation-using-keras-tensorflow-a6341669d9ca
dc.relationLeiva Tarazona, A., & Ramírez Ríos, A. (2021). Efectos de la inseguridad Ciudadana en el bienestar de la población. Ciencia Latina Revista Científica Multidisciplinar, 5(3), 3341-3352. https://doi.org/10.37811/cl_rcm.v5i3.535
dc.relationLiang, T., Glossner, J., Wang, L., Shi, S., & Zhang, X. (2021). Pruning and quantization for deep neural network acceleration: A survey. Neurocomputing, 461, 370–403. https://doi.org/10.1016/j.neucom.2021.07.045
dc.relationMorales, G., Salazar-Reque, I., Telles, J., & Díaz, D. (2019). Detecting Violent Robberies in CCTV Videos Using Deep Learning. IFIP Advances in Information and Communication Technology, 282–291. https://doi.org/10.1007/978-3-030-19823-7_23
dc.relationMu, G., Cao, H., & Jin, Q. (2016). Violent Scene Detection Using Convolutional Neural Networks and Deep Audio Features. Communications in Computer and Information Science, 451–463. https://doi.org/10.1007/978-981-10-3005-5_37
dc.relationMuggah, R., & Aguirre, K. (2018). Citizen Security in Latin America: The Hard Facts. Irapagué Institute, Strategic Paper, 33, 1-63.
dc.relationOficina de Análisis de Información y Estudios Estratégicos. (2019, diciembre). Evaluación del Sistema de videovigilancia de Bogotá D.C. https://scj.gov.co/sites/default/files/documentos_oaiee/Imapcto%20Videovigilancia%20en%20Bogot%C3%A1.pdf
dc.relationOkewu, E., Adewole, P., & Sennaike, O. (2019). Experimental Comparison of Stochastic Optimizers in Deep Learning. Computational Science and Its Applications – ICCSA 2019, 704–715. https://doi.org/10.1007/978-3-030-24308-1_55
dc.relationOngsulee, P. (2017). Artificial intelligence, machine learning and deep learning. 2017 15th International Conference on ICT and Knowledge Engineering (ICT&KE), 1–6. https://doi.org/10.1109/ictke.2017.8259629
dc.relationRamzan, M., Abid, A., Khan, H. U., Awan, S. M., Ismail, A., Ahmed, M., Ilyas, M., & Mahmood, A. (2019). A Review on State-of-the-Art Violence Detection Techniques. IEEE Access, 7, 107560–107575. https://doi.org/10.1109/access.2019.2932114
dc.relationRollins, J. B. (2015). Metodología Fundamental para la Ciencia de Datos. IBM Analytics. Recuperado 22 de marzo de 2022, de https://www.ibm.com/downloads/cas/WKK9DX51
dc.relationSarkar, D., Bali, R., & Ghosh, T. (2018). Hands-On Transfer Learning with Python: Implement Advanced Deep Learning and Neural Network Models Using TensorFlow and Keras. Packt Publishing, Limited.
dc.relationSharma, M., & Baghel, R. (2020). Video Surveillance for Violence Detection Using Deep Learning. Advances in Data Science and Management, 411–420. https://doi.org/10.1007/978-981-15-0978-0_40
dc.relationSoliman, M. M., Kamal, M. H., El-Massih Nashed, M. A., Mostafa, Y. M., Chawky, B. S., & Khattab, D. (2019). Violence Recognition from Videos using Deep Learning Techniques. 2019 Ninth International Conference on Intelligent Computing and Information Systems (ICICIS), 80–85. https://doi.org/10.1109/icicis46948.2019.9014714
dc.relationSubsecretaría de Inversiones y Fortalecimiento de Capacidades Operativas. (2020). Ampliación concepto de Línea de Inversión Local para la dotación con recursos tecnológicos para la seguridad. http://www.sdp.gov.co/sites/default/files/anexo_1._dotacion_con_recursos_teconologicos_para_seguridad.pdf
dc.relationTay, N. C., Connie, T., Ong, T. S., Goh, K. O. M., & Teh, P. S. (2018). A Robust Abnormal Behavior Detection Method Using Convolutional Neural Network. Lecture Notes in Electrical Engineering, 37–47. https://doi.org/10.1007/978-981-13-2622-6_4
dc.relationSudhakaran, S., & Lanz, O. (2017, August). Learning to detect violent videos using convolutional long short-term memory. In 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) (pp. 1-6). IEEE.
dc.relationUllah, F. U. M., Ullah, A., Muhammad, K., Haq, I. U., & Baik, S. W. (2019). Violence Detection Using Spatiotemporal Features with 3D Convolutional Neural Network. Sensors, 19(11), 2472. MDPI AG. http://dx.doi.org/10.3390/s19112472
dc.relationVasilev, I., Slater, D., Spacagna, G., Roelants, P., & Zocca, V. (2019). Python Deep Learning: Exploring Deep Learning Techniques and Neural Network Architectures with PyTorch, Keras, and TensorFlow (2.a ed.). Packt Publishing.
dc.relationVijeikis, R., Raudonis, V., & Dervinis, G. (2022). Efficient Violence Detection in Surveillance. Sensors, 22(6). https://doi.org/10.3390/s22062216
dc.relationZhang, A., Lipton, C. Z., Li, M., & Smola, J. A. (2021). Dive into Deep Learning [Libro electrónico]. arXiv preprint arXiv:2106. 11342. Recuperado 27 de marzo de 2022, de https://d2l.ai/index.html
dc.relationZhou, P., Ding, Q., Luo, H., & Hou, X. (2017). Violent Interaction Detection in Video Based on Deep Learning. Journal of Physics: Conference Series, 844. https://doi.org/10.1088/1742-6596/844/1/012044
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://purl.org/coar/access_right/c_abf2
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rightsAcceso abierto
dc.subjectCOMPRESION DE IMAGENES
dc.subjectCOMPRESION DE VIDEOS
dc.subjectVIOLENCIA
dc.subjectINTELIGENCIA ARTIFICIAL
dc.subjectviolence recognition
dc.subjectimage classification
dc.subjectdeep learning
dc.subjecttransfer learning
dc.subjectclasificación de imágenes
dc.subjecttransferencia de aprendizaje
dc.subjectaprendizaje profundo
dc.subjectidentificación de violencia
dc.titleReconocimiento de escenas violentas en imágenes de CCTV utilizando aprendizaje profundo
dc.titleRecognition of violent scenes in CCTV images using deep learning
dc.typeTesis/Trabajo de grado - Monografía - Pregrado
dc.typeinfo:eu-repo/semantics/bachelorThesis
dc.typehttp://purl.org/coar/resource_type/c_7a1f
dc.typeinfo:eu-repo/semantics/acceptedVersion
dc.coverageCalle 100


Este ítem pertenece a la siguiente institución