Tesis
Selección e identificación de grupos complementarios de características utilizando información mutua
Autor
Vergara Quezada, Jorge Ramón
Institución
Resumen
El constante crecimiento del volumen, la tasa de generación y la dimensionalidad de datos en todas las áreas hace cada vez más necesario el análisis automático de éstos. Bajo este contexto, el pre-procesamiento de datos aparece como un área de investigación de gran interés, principalmente porque hace inteligible los datos para un posterior análisis. Una de las técnicas de preprocesamiento es la selección de características, la cual estudia cómo seleccionar un subconjunto mínimo de características para construir un modelo que genera los datos. La selección de características tiene como propósito: (i) mejorar el desempeño de predicción de los predictores, (ii) proveer mayor rapidez y efectividad en la predicción, y (iii) posibilitar una comprensión más clara del proceso que genera los datos. Tradicionalmente la literatura ofrece métodos focalizados en mejorar los dos primeros puntos, destacando aquellos métodos con las siguientes cualidades: independientes del clasificador, reflejándose en un bajo costo computacional; y criterios de selección de características basados en información mutua que tienen la capacidad de detectar relaciones no-lineales entre las características. La importancia del tercer punto es que no solo ayuda a la comprensión del proceso, sino que además permite identificar las interacciones existentes entre características (grupos de características). Por otro lado, su principal dificultad consiste en la poca precisión (y consecuentemente difícil cuantificación) de los conceptos de relevancia e interacción. La presente tesis extiende los actuales criterios de selección de características basados en información mutua a través del diseño de un criterio de selección e identificación de grupos complementarios de características. En este contexto, un grupo complementario se define como aquellas características que al actuar conjuntamente entregan mayor información de la variable de salida en relación a la suma de información que cada una de éstas por separado tiene de la variable de salida. Este trabajo se inicia con una detallada revisión de los actuales métodos de selección de características, permitiendo conocer la necesidad de incluir los términos de interacción, específicamente el término de complementariedad o sinergia. Posteriormente se realiza una formalización teórica e identificación de los conceptos de relevancia única, redundancia y complementariedad existentes entre características y la variable de salida. Además se formula una estrategia para determinar el límite inferior de información que cada característica tiene de la variable de salida. Finalmente se realiza el diseño y formulación de un nuevo criterio de selección e identificación de grupos complementarios. Las principales contribuciones de esta tesis son desarrollar una mejora del criterio CMIM (Conditional Mutual Information Maximization) y proponer un nuevo criterio para la identificación y selección de grupos complementarios de características. Los métodos propuestos se comparan con los criterios de selección de características más usados de la literatura. Los resultados muestran que los aportes de la propuesta van más allá de identificar grupos complementarios de características, sino que además permite mejorar el desempeño de los clasificadores en la etapa posterior al preprocesamiento. También el criterio propuesto permite visualizar los grados de interacción que existen entre las características y variable de salida. La complejidad computacional se incrementa levemente, siendo todavía comparable a los criterios más eficientes existentes en el área. Los alcances de esta propuesta permiten establecer en términos generales, una mayor y mejor comprensión de los procesos que generan los datos, y en términos específicos, la información necesaria para una futura detección del tamaño óptimo de características.