article
Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios
Autor
Beltrán, Celina
Barbona, Ivana
Institución
Resumen
En este trabajo se propone el estudio de estas las técnicas estadísticas multivariadas Árboles de clasificación y Bosques aleatorios siendo de interés evaluar el desempeño de las mismas cuando son utilizadas en datos que difieren en la estructura de correlaciones entre las variables intervinientes y los tamaños de muestras. Una herramienta para evaluar estos desempeños es mediante simulación. Se definieron 4 escenarios para la simulación de datos con las siguientes características:
Escenario 1: Variable respuesta altamente correlacionada con las predictoras y las variables predictoras poco correlacionadas entre sí.
Escenario 2: Variable respuesta poco correlacionada con las predictoras y las variables predictoras muy correlacionadas entre sí.
Escenario 3: Variable respuesta muy correlacionada con las predictoras y las variables predictoras también muy correlacionadas entre sí.
Escenario 4: Variable respuesta poco correlacionada con las predictoras y asimismo las variables predictoras poco correlacionadas entre sí. REV
En los escenarios 1 y 3, la situación planteada se corresponde con grupos “separables” en función de los valores de los predictores; mientras que en los escenarios 2 y 4 los grupos están solapados respecto a las variables predictoras, dificultando la tarea de discriminarlos en función de las mismas. Se generaron mediante simulación 500 archivos de datos para cada uno de los siguientes tamaños de muestra: 30, 75, 200, 400, 600, 1000. Se “marcó” el 20% de las observaciones para ser utilizadas como grupo de test y el restante 80% para la estimación de los modelos evaluados en cada caso.
Como resultado principal se evidencia que, en aquellos escenarios donde es favorable la clasificación por la estructura de correlaciones de las variables que suponen una separación de los grupos (Escenarios 1 y 3), la evidencia en favor de la técnica de Bosques Aleatorios es significativa, independientemente del tamaño de muestra. Sin embargo, en los casos en que la variable respuesta no fue generada correlacionada con las explicativas, y por lo tanto los grupos no son capaces de ser discriminados por los valores de dichas variables (Escenarios 2 y 4), no hay evidencia de superioridad de la técnica de Bosques excepto en aislados casos. Este comportamiento de los Bosques Aleatorio concuerda con lo que se observa al evaluar el error medio porcentual del bosque según el número de árboles estimados. Es posible distinguir comportamientos diferentes según escenario. En los escenarios más favorables para la clasificación (Escenarios 1 y 3) el error medio porcentual disminuye claramente al incrementar el tamaño del bosque y el tamaño de muestra; mientras que en casos donde la separación de grupos no es lograda por las variables explicativas, el error porcentual medio parece mantenerse constante sin mostrar una ventaja independientemente del tamaño del bosque y del conjunto de datos. Estos resultados ponen cierta luz al momento de elegir la técnica estadística conveniente para clasificar unidades cuando las variables en consideración están o no correlacionadas y los grupos respuesta se encuentran solapados o no respecto a los valores de las mismas. Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentina Barbona, Ivana. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentina