doctoralThesis
COMOVI: um framework para transformação de dados em aplicações de credit behavior scoring baseado no desenvolvimento dirigido por modelos
Registro en:
Autor
OlLIVEIRA NETO, Rosalvo Ferreira de
Institución
Resumen
A etapa de pré-processamento em um projeto de descoberta do conhecimento é custosa,
em geral, consome cerca de 50 a 80% do tempo total de um projeto. É nesta etapa que um
banco de dados relacional é transformado para aplicação de um algoritmo de mineração de
dados. A transformação dos dados nesta etapa é uma tarefa complexa, uma vez que exige uma
forte integração entre projetistas de banco de dados e especialistas do domínio da aplicação. Os
frameworks que buscam sistematizar a etapa de transformação dos dados encontrados na literatura
apresentam limitações significativas quando aplicados a soluções comportamentais, como Credit
Behavior Scoring. Estas soluções visam a auxiliar as instituições financeiras a decidirem sobre
a concessão de crédito aos consumidores com base no risco das solicitações. Este trabalho
propõe um framework baseado no Desenvolvimento Dirigido por Modelos para sistematizar
esta etapa em soluções de Credit Behavior Scoring. Ele é composto por um meta-modelo que
mapeia os conceitos do domínio e um conjunto de regras de transformações. As três principais
contribuições do framework proposto são: 1) aumentar o poder discriminatório da solução,
através da construção de novas variáveis que maximizam o conteúdo estatístico da informação
do domínio; 2) reduzir o tempo da transformação dos dados através da geração automática de
código e 3) permitir que profissionais e pesquisadores de Inteligência Artificial e Estatística
realizem a transformação dos dados sem o auxílio de especialistas de Banco de Dados. Para
validar o framework proposto, dois estudos comparativos foram realizados. Primeiro, um estudo
comparando o desempenho entre os principais frameworks existentes na literatura e o framework
proposto foi realizado em duas bases de dados. Uma base de dados de um conhecido benchmark
de uma competição internacional organizada pela PKDD, e outra obtida de uma das maiores
empresas de varejo do Brasil, que possui seu próprio cartão de crédito. Os frameworks RelAggs
e Validação de Múltiplas Visões Baseado em Correção foram escolhidos como representantes
das abordagens proposicional e mineração de dados relacional, respectivamente. A comparação
foi realizada através do processo de validação cruzada estratificada, para definir os intervalos de
confiança para a avaliação de desempenho. Os resultados mostram que o framework proposto
proporciona um desempenho equivalente ou superior aos principais framework existentes, medido
pela área sob a curva ROC, utilizando uma rede neural MultiLayer Perceptron, K vizinho mais
próximos e Random Forest como classificadores, com um nível de confiança de 95%. O segundo
estudo verificou a redução de tempo proporcionada pelo framework durante a transformação dos
dados. Para isso, sete times compostos por estudantes de uma universidade brasileira mensuraram
o tempo desta atividade com e sem o framework proposto. O teste pareado Wilcoxon Signed-Rank
mostrou que o framework proposto reduz o tempo de transformação com um nível de confiança
de 95%. CAPEs The pre-processing stage in knowledge discovery projects is costly, generally taking
between 50 and 80% of total project time. It is in this stage that data in a relational database are
transformed for applying a data mining technique. This stage is a complex task that demands
from database designers a strong interaction with experts who have a broad knowledge about
the application domain. The frameworks that aim to systemize the data transformation stage
have significant limitations when applied to behavior solutions such as the Credit Behavior
Scoring solutions. Their goal is help financial institutions to decide whether to grant credit to
consumers based on the credit risk of their requests. This work proposes a framework based on
the Model Driven Development to systemize this stage in Credit Behavioral Scoring solutions.
It is composed by a meta-model which maps the domain concepts and a set of transformation
rules. This work has three main contributions: 1) improving the discriminant power of data
mining techniques by means of the construction of new input variables, which embed new
knowledge for the technique; 2) reducing the time of data transformation using automatic code
generation and 3) allowing artificial intelligence and statistics modelers to perform the data
transformation without the help of database experts. In order to validate the proposed framework,
two comparative studies were conducted. First, a comparative study of performance between
the main existing frameworks found in literature and the proposed framework applied to two
databases was performed. One database from a known benchmark of an international competition
organized by PKDD, and another one obtained from one of the biggest retail companies from
Brazil, that has its own private label credit card. The RelAggs and Correlation-based Multiple
View Validation frameworks were chosen as representatives of the propositional and relational
data mining approaches, respectively. The comparison was carried out through by a 10-fold
stratified cross-validation process with ten stratified parts in order to define the confidence
intervals. The results show that the proposed framework delivers a performance equivalent or
superior to those of existing frameworks, for the evaluation of performance measured by the area
under the ROC curve, using a Multilayer Perceptron neural network, k-nearest neighbors and
Random Forest as classifiers, with a confidence level of 95%. The second comparative study
verified the reduction of time required for data transformation using the proposed framework.
For this, seven teams composed by students from a Brazilian university measured the runtime of
this stage with and without the proposed framework. The paired Wilcoxon Signed-Rank’s Test
showed that the proposed framework reduces the time of data transformation with a confidence
level of 95%.