Tesis
Un modelo predictivo interpretable para la estimación del ingreso monetario de clientes bancarios basado en XGBOOST Y SHA.
Autor
Marchant Contreras, Vicente Manuel
Institución
Resumen
Usualmente, las instituciones bancarias no cuentan con información actualizada de la renta o
ingresos mensuales que reciben sus clientes. Esta información es utilizada para mejorar la
gestión de oferta de productos, como por ejemplo, segmentar a los clientes y ofrecer tipos de
productos diferenciados. Por otra parte, estas entidades construyen modelos predictivos donde
pueden llegar a utilizar cientos de variables explicativas, de las cuales solo un subconjunto
de estas realmente contribuyen en capturar la variabilidad de la respuesta. En este trabajo se
propone una metodología que permite entrenar un modelo de Machine Learning (XGBoost)
con un subconjunto reducido de variables explicativas, en comparación a la base completa de
variables que utiliza la institución. Esto, bajo el supuesto de que tener el número óptimo de
variables explicativas puede igualar o aumentar el poder predictivo y disminuir la complejidad
del modelo. Luego, para transparentar las predicciones obtenidas por el modelo, se ofrece un
análisis de interpretabilidad utilizando el método Shapley Additive Explanations (SHAP)
Lundberg and Lee (2017). Para realizar la reducción del número de variables explicativas se
compararon y aplicaron dos métodos de selección de variables, Boruta-XGBoost (Kursa and
Rudnicki (2010), Alsahaf et al. (2022)) y BorutaShap Keany (2020). La metodología propuesta
se testeó sobre datos simulados, en donde las variables explicativas creadas tuvieron asociados
distintos pesos. El objetivo principal del estudio de simulación fue ver si los métodos eran
capaces de seleccionar como “importantes” aquellas variables que dependían directamente
de la respuesta (de la forma Y = β1x1 + β2x2 + . . . + βpxp), y como “no importantes” o “no
informativas” a aquellas que a priori no estaban relacionadas con la respuesta (xp+1, . . . , xp+q,
con p, q fijos). Finalmente, aplicamos nuestra metodología sobre un conjunto de datos real.
Este cuenta con los registros de renta de 10.000 clientes bancarios y un total de 426 variables
explicativas. Los resultados muestran que el método BorutaShap ofrece un subconjunto de
35 variables que aumentan el poder predictivo del modelo XGBoost, superando incluso al
modelo entrenado con las 426 variables originales en cuanto a porcentaje de éxito. Este trabajo
representa un aporte para las instituciones financieras, ya que a partir de la adopción de
nuestra metodología serán capaces de identificar de forma consistente y dar seguimiento
a las variables más influyentes, pudiendo además reducir la complejidad y el tiempo de
entrenamiento de los modelos XGBoost sin sacrificar el poder predictivo de los mismos.