Trabajo de grado - Maestría
Análisis Comparativo de Modelos de Machine Learning Y GLM de Procesos de Tarificación de Seguros de Automóviles
Fecha
2022Autor
Castro Acosta, Wilhem Eisbey
Resumen
En el presente trabajo se compara cuantitativa y cualitativamente el desempeño y los
procesos metodológicos asociados a la predicción de la frecuencia y severidad para un caso
particular en el ramo de automóviles, aplicando tanto técnicas clásicas como GLMs y
algunas de sus variaciones como de Machine Learning, con el fin de evaluar sus
potencialidades, ofreciendo mayor variedad en las herramientas usuales para este tipo de
procesos, buscando detectar relaciones e interacciones no lineales en los predictores para
disminuir escenarios de selección adversa en los modelos de tarificación. Se utilizó el
marco metodológico CRISP-DM como guía para las etapas y procesos en el contexto
analítico. Así mismo, se utilizó el software R y el paquete “caret” para desarrollar los
diferentes modelos, buscando garantizar criterios adecuados de comparabilidad en la
selección de los subconjuntos de validación cruzada. Finalmente, al comunicar los
resultados de los modelos, las métricas de desempeño y los lift-charts asociados a cada uno
de ellos, se concluye que al comparar las métricas de desempeño para el caso particular del
dataset utilizado (“dataCar” de la librería “insuranceData” del software R) no existe ventaja
cuantitativa considerable entre los dos enfoques (GLMs vs ML). Sin embargo, a través del
análisis gráfico (Lift-charts) se aprecian diferencias en la capacidad de los modelos para
detectar selección adversa, por lo que se concluye que las dos metodologías son
complementarias pues ofrecen ventajas diferentes desde el punto de vista procedimental. This paper compares quantitatively and qualitatively the performance and
methodological processes associated with the prediction of frequency and severity for a case
particularly in the automotive industry, applying both classical techniques and GLMs and
some of its variations such as Machine Learning, in order to evaluate their
potentialities, offering a greater variety in the usual tools for this type of
processes, seeking to detect non-linear relationships and interactions in the predictors to
reduce adverse selection scenarios in pricing models. We used the
CRISP-DM methodological framework as a guide for the stages and processes in the context
analytical. Likewise, the R software and the "caret" package were used to develop the
different models, seeking to guarantee adequate comparability criteria in the
selection of cross-validation subsets. Finally, by communicating
results of the models, the performance metrics and the lift-charts associated with each one
of them, it is concluded that when comparing the performance metrics for the particular case of the
dataset used (“dataCar” from the “insuranceData” library of the R software) there is no advantage
considerable quantitative difference between the two approaches (GLMs vs ML). However, through
graphic analysis (Lift-charts) differences can be seen in the capacity of the models to
detect adverse selection, so it is concluded that the two methodologies are
complementary as they offer different advantages from the procedural point of view.