Tesis Doctorado
Feature selectión to detect patterns in supervised and semi supervised scenariós.
Autor
Soto, Alvaro
Pontificia Universidad Católica de Chile
Institución
Resumen
Uno de los problemas centrales en Minería de Datos y Aprendizaje de máquina es la
identificación de variables que ayudan en la detección de diferentes tipos de patrones en
grandes bases de datos. Dado que no es posible analizar todos los subcojuntos de variables
en forma exhaustiva debido al enorme costo computacional, es muy importante desarrollar
modelos adecuados que en forma eficiente exploran el espacio de características. Una de
las claves para explorar este espacio es incluir toda la información disponible sobre los
patrones buscados con el objeto de acotar la búsqueda. En esta Tesis se aborda el problema
selección de variables en dos posibles escenarios, uno es la detección de anomalías en
situaciones semisupervisadas y la otra es clasificación en escenarios supervisados. En el
primer caso se desarrolló un esquema de aprendizaje activo que utiliza modelos
probabilísticos y clustering en subespacios para detectar anomalías relevantes en algunos
subespacios de los datos. La búsqueda es guiada utilizando información de la clase de
algunos de los elementos, esta información proviene de un usuario experto, que además
nos ayuda a incluir conocimiento semántico para mejorar la detección. En el segundo
escenario, se desarrolló un novedoso enfoque que busca seleccionar subconjuntos de
características o variables para cada instancia de los datos con el objeto de mejorar la
exactitud en problemas de clasificación. Este modelo busca subconjuntos de variables
discriminativas para clasificar cada dato. Las principales técnicas utilizadas son procesos
Gaussianos y técnicas de selección de características para evaluar la discriminatividad de
las variables al momento de seleccionarlas. Los resultados en el escenario no supervisado
muestran que buscar en subespacios estratégicos es crucial, dado que las anomalías se
presentan dispersas entre muchos clusters si se considera el espacio completo de variables.
La inclusión de conocimiento semántico ayuda en descartar anomalías irrelevantes que en
las primeras etapas del algoritmo fueron clasificadas como interesantes por los modelos
que sólo utilizan información de bajo nivel a partir de los datos. Los resultados en el
escenario supervisado muestran que la selección local de características tiene un mejor
desempeño que la selección global. Además se muestra que la aplicación de procesos
Gaussianos es muy útil para obtener buenos resultados en la estimación de la relevancia de
las variables sólo utilizando una fracción de los datos en la regresión.