Tesis
Nuevo Algoritmo de clasificación supervisado sin parámetros, no afectado por el desbalanceo y overfitting
Autor
Poloni, Pablo Alberto
Institución
Resumen
Los algoritmos tradicionales orientados a la extracción de reglas de decisión y modelos de clasificación, han demostrado resultados no deseados al trabajar con conjuntos de datos con ciertas particularidades. Entre ellos se puede mencionar: árboles de decisión, regresiones logísticas, redes neuronales, algoritmos genéticos, etc. En cualquiera de estos algoritmos, es necesario configurar una gran cantidad de parámetros hasta lograr un resultado deseable. El manejar los parámetros inadecuadamente genera modelos probabilísticos con aparentemente buenos resultados. Estos modelos al ser validados no reflejan los resultados esperados. Este problema es conocido como overfitting. Muchas veces ocurre, que los individuos que se quieren clasificar son muy pocos comparados con la población total. Este inconveniente es conocido como “desbalanceo” de la clase. Los algoritmos tradicionales, en muchos de estos casos, no trabajan adecuadamente o es costoso hacerlos funcionar. Si las variables tienen un número reducido de valores muy alejados de los valores centrales, estos “valores extremos” deben ser tratados previamente para evitar el mal funcionamiento de los algoritmos. Todos estos inconvenientes han llevado a tratar de encontrar otras alternativas para obtener modelos con “reglas” que permitan predecir comportamientos o clasificar en diferentes segmentos. Son numerosos los autores que han escrito trabajos para generar combinaciones de predicados y utilizar la curva ROC para seleccionar los mejores. Entre algunos de ellos se pueden citar: Provost and Fawcett, 1998; Provost ad Fawcett, 2002; Ferri, C. Flash, P., Hernández –Orallo, 2002; Fawcett, 2003;Fürnkranz, J. and Flash, 2005. Esta tesis presenta un nuevo algoritmo, llamado DO-ROC2, para generar todas las combinaciones de reglas posibles de a 2 variables y seleccionar aquellas reglas que maximizan el área bajo la curva ROC. DO-ROC2 tiene como ventajas sobre los algoritmos tradicionales: no es afectado por el “desbalanceo”; tampoco por “valores extremos”; no necesita parámetros para su ejecución y el “overfitting” está controlado.