Monografia
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
Registro en:
Santos, Thiago de Jesus dos. Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito. São Cristóvão, 2022. Monografia (graduação em Ciências Atuariais) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2022
Autor
Santos, Thiago de Jesus dos
Institución
Resumen
Due to the great computational advances, the development of models in the credit area in order to classify, measure the probability of implementation and other ways has been improved by machine learning techniques. In this context, the present study aimed to develop predictive models using machine learning techniques, in order to identify customers who are more likely to default on their debts to US financial institutions linked to a US Small Business Administration entity (SBA). Through descriptive analysis, an imbalance was observed in the data distribution of the response variable, referring to the credit to the implementation by the institutions, since 82% of the customers paid on time, while 18% became defaulter. Therefore, in this study it was proposed that Logistic Regression, Naive Bayes, Decision Tree and Random Forest (RF) methods generated models trained in three situations: 1) Real scenario (unbalanced); 2) Undersampling Scenario and 3) Oversampling Scenario. The results found indicate that the application of balancing techniques cause a reduction in accuracy and sensitivity in the part of the models, with an even larger increase in specificity of all adjustments. In addition, Random Forest obtained the best evaluation measurements among all methods used, regardless of the proposed scenario for the training set. Finally, using the “area under the curve” as an evaluation metric (AUC), the model (M12) generated by the RF model on a sampling technique resulted in the best performance in the generalization process. Devido ao grande avanço computacional, o desenvolvimento de modelos na área de crédito com o intuito de classificar o tipo dos clientes, mensurar a probabilidade de inadimplência e outras informações têm sido sofisticado pelas técnicas de Machine Learning. Neste contexto, o presente estudo teve como objetivo o desenvolvimento de modelos preditivos utilizando técnicas de machine learning, a fim de identificar os clientes que estão mais propensos a não honrar com suas dívidas perante as instituições financeiras dos Estados Unidos vinculadas à entidade US Small Business Administration (SBA). Por meio do estudo descritivo, observou-se um desbalanceamento nos dados ocorrido na variável resposta, referente à inadimplência, pois 82% dos clientes, que gozaram do crédito ofertado pelas instituições, honraram com o pagamento do débito, enquanto 18% tornaram-se inadimplentes. Sendo assim, neste estudo foi proposto que os métodos de regressão logística, Naive Bayes, Decision tree e Random Forest (RF) gerassem modelos treinados em três situações: 1) Cenário real (desbalanceado); 2) Cenário Undersampling e 3) Cenário Oversampling. Os resultados encontrados apontam que a aplicação das técnicas de Undersampling e Oversampling ocasionou a redução da acurácia e sensibilidade na maior parte dos modelos, porém gerou um aumento considerável da especificidade de todos os ajustes. Ademais, o Random Forest obteve as melhores métricas de avaliação entre os demais algoritmos utilizados, independente do cenário de treinamento proposto. Por fim, utilizando como métrica de avaliação a Area Under the Curve (AUC) tem-se que o modelo (M12) gerado pelo algoritmo RF utilizando a técnica de Oversampling resultou no melhor desempenho no processo de generalização. São Cristóvão, SE