Trabajo de grado - Maestría
Modelo de minería de datos en la empresa INTEGRA S.A., operador de transporte masivo del Área Metropolitana Centro Occidente para definir patrones de conducción de los operadores de los buses articulados y alimentadores
Registro en:
Universidad de Caldas
Repositorio Institucional Universidad de Caldas
Autor
Sanchez Jacome, Jorge Augusto
Institución
Resumen
Ilustraciones, gráficas spa:La presente investigación implementa un modelo aplicable a la base de datos InnoBUS Masivo propeidad de la operadora de Transporte Masivo INTEGRA S.A. en el Área Metropolitana Centro Occidente que permite encontrar patrones de comportamiento de conducción en los operadores en los vehículos articulados y alimentadores. Para el presente estudio se tuvierón en cuenta algunas variables que afectan los comportamientos de conducción normal de los operadores de los vehículos articulados y alimentadores a través del entendimiento de las necesidades de la empresa tales como lo son la velocidad, la aceleración, la desaceleración, la orientación, la ruta entre otras, para esto se usa el método CRISP-DM, El modelo construído usa técnicas de clustering que permite la obtención de los comportamientos de conducción de los operadores con las variables previamente definidas, por último y en conjunto con el equipo de expertos de INTEGRA S.A. se analizan los resultados del estudio para definir las caracterísitcas de la población. El proceso ETL (Extraction, Transform y Load) permite primero realizar la recolección de la data necesaria analizando más de 16 millones de datos y unificando la informacion por medio de una rutina construída en Python. Posterior a esto se hace la transformación de la data dónde se realiza la limpieza y transformación de esta elimianndo extremos o datos atípicos y por último se hace la carga de los datos en el módelo donde se realiza todo el análisis. Como conclusión del trabajo se identifcan 4 perfiles de conducción y se demuestra el éxito del modelo creado. eng:This research implements a model applicable to the InnoBUS Massive database owned by the Massive Transport operator INTEGRA S.A. in the Central Western Metropolitan Area that allows us to find patterns of driving behavior in operators in articulated and feeder vehicles. For the present study, some variables that evolve the normal driving behaviors of the operators of articulated and powered vehicles were taken into account through the understanding of the company's needs, such as speed, acceleration, deceleration, orientation, the route among others, for this the CRISP-DM method is used, the built model uses clustering techniques that allow obtaining the driving behaviors of the operators with the previously defined variables, finally and in conjunction with the team of experts from INTEGRA S.A. the results of the study are analyzed to define the characteristics of the population. The ETL process (Extraction, Transform and Load) allows first to collect the necessary data by analyzing more than 16 million data and unifying the information through a routine built in Python. After this, the transformation of the data is done where the cleaning and transformation of this is done, eliminating extremes or atypical data and finally the data is loaded in the model where all the analysis is carried out. As a conclusion of the work, 4 driving profiles are identified and the success of the created model is demonstrated. 1 Introduccion / 1.1 Planteamiento del Problema / 1.2 Justificacion / 1.3 Objetivos / 1.3.1 Objetivo General / 1.3.2 Objetivos Espec´ıficos / 1.4 Estructura del Documento / 2 Revision Bibliogr ´ afica / ´ 2.1 Marco Teorico / 2.1.1 Python / 2.1.2 Numpy / 2.1.3 Pandas / 2.1.4 Web Service / 2.1.5 RStudio / 2.1.6 Estad´ıstica Descriptiva / 2.1.7 Estad´ıstica Inferencial / 2.1.8 Miner´ıa de Datos / 2.1.9 ETL (Extraction, Transform, Load): / 2.1.10 Tipos de Miner´ıa de Datos / 2.1.11 Funciones de la Miner´ıa de Datos /2.2 Metodolog´ıas de Miner´ıa de Datos / 2.2.1 KDD (Knowledge Discovery in Database) / 2.2.2 CRISP-DM Cross-Industry Standard Process for Data Mining 21 2.3 Clustering / 2.3.1 Medidas de Distancia entre Objetos / 2.3.2 Distancia Minkowksi / 2.3.3 Distancia del Supremo / 2.3.4 Distancia de Mahalanobis / 2.3.5 Coeficiente de Correlacion / 2.3.6 Matching Coefficients / 2.3.7 Entrop´ıa / 2.3.8 Distancia de Kullback-Leibler / 2.4 Algoritmos de Cluster / 3 2.4.1 Factores a tener en cuenta en los Algoritmos de Cluster /2.4.2 Algoritmos Espaciales / 2.4.3 Algoritmos Basados en Cuadr´ıcula / 2.4.4 Algoritmo de Clustering Jerarquico / 2.4.5 Algoritmos de Clustering Borroso o Fuzzy / 2.4.6 Algoritmo de Datos Distribuidos / 2.4.7 Algoritmos de Clustering Basado en Modelos / 2.4.8 Algoritmos Particionales / 2.5 Estado del Arte / 2.5.1 Industria 4.0 / 2.5.2 Situacion en Colombia / 2.5.3 Situacion en el Sector Transporte / Descripcion Detallada del Proceso / 3.1 Seleccion del M ´ ´etodo / 3.1.1 Entendimiento del Negocio: / 3.1.2 Entendimiento de los Datos / 3.1.3 Preparacion de los datos / 3.2 Algoritmo de Clusterizacion / 3.2.1 Seleccion del Algoritmo / 3.2.2 Modelamiento de los Datos / 3.2.3 Definicion del N ´ umero de ´ Clusters / 4 Resultados / 4.1 Datos Procesados con la Limpieza Interquartil / 4.2 Datos Procesados con la Limpieza a trav´es del Teorema de Chebyshev / 89 4.3 Analisis de las Clusterizaciones Escogidas / 4.3.1 Clusterizacion con 3 Perfiles / 4.3.2 Clusterizacion con 4 perfiles / 4.4 Eleccion de Clusterizaci ´ on / 4.5 Perfiles de Conduccion / 4.5.1 Perfil de Conduccion 1 / 4.5.2 Perfil de Conduccion 2 / 4.5.3 Perfil de Conduccion 3 / 4.5.4 Perfil de Conduccion 4 / 5 Conclusiones y Trabajos Futuros / Apendices / A Codigo Fuente Maestría Magister en Ingeniería Computacional Patrones de Conducción en INTEGRA S.A.