Trabalho de Conclusão de Curso
Qualidade de dados através de árvores de decisão
Autor
Neves, Guilherme Coelho
Institución
Resumen
After the implementation of a program based on artificial neural networks for the
screening of patients for the diagnosis of tuberculosis in Health Units of the
Brazil, it was identified that the data collected could be “biased”. This suspicion
occurred when comparing the data and outputs obtained by the neural network with the diagnosis of
doctors.
Through interviews and investigations by those responsible for the software
implemented, it was identified that users of the program, often under pressure
by working conditions, they could be altering patient input data
so that they could obtain, as a possible diagnosis by screening, an alternative other than
tuberculosis.
In this work, a methodology is proposed that seeks to identify the reliability of the
information processed by the system, as well as applying techniques that delay and
demotivate the user's tendentious completion of the questionnaire.
Using data grouping techniques (decision trees) and visualization
analysis (Principal Component Analysis - for categorical data - Analysis of
Correspondence), it is intended not only to qualify the data, but also to quantify the
reliability. Após a implementação de um programa baseado em redes neurais artificiais para a
triagem de pacientes quanto ao diagnóstico de tuberculose em Unidades de Saúde do
Brasil, foi identificado que os dados coletados poderiam estar “viesados”. Esta suspeita
ocorreu ao comparar os dados e saídas obtidas pela rede neural com o diagnóstico dos
médicos.
Através de entrevistas e investigações feitas por parte dos responsáveis pelo software
implantado, foi identificado que os usuários do programa, muitas vezes pressionados
pelas condições de trabalho, poderiam estar alterando os dados de entrada dos pacientes
para que obtivessem como possível diagnóstico pela triagem uma alternativa que não a
tuberculose.
Neste trabalho, é proposta uma metodologia que busca identificar a confiabilidade da
informação processada pelo sistema, bem como aplicar técnicas que retardam e
desmotivam o preenchimento tendencioso do questionário por parte do usuário.
Utilizando de técnicas de agrupamento de dados (árvores de decisão) e de visualização
de dados (Análise De Componentes Principais - para dados categóricos -Análise de
Correspondência), pretende-se não só qualificar os dados, como também quantificar a
confiabilidade dos mesmos.