Feature selectión to detect patterns in supervised and semi supervised scenariós.

Tesis Doctorado

Fecha

2015

Registro en:

http://hdl.handle.net/10533/181760

Autor

Soto, Alvaro

Pontificia Universidad Católica de Chile

Institución

ANID (Chile)

Resumen

Uno de los problemas centrales en Minería de Datos y Aprendizaje de máquina es la identificación de variables que ayudan en la detección de diferentes tipos de patrones en grandes bases de datos. Dado que no es posible analizar todos los subcojuntos de variables en forma exhaustiva debido al enorme costo computacional, es muy importante desarrollar modelos adecuados que en forma eficiente exploran el espacio de características. Una de las claves para explorar este espacio es incluir toda la información disponible sobre los patrones buscados con el objeto de acotar la búsqueda. En esta Tesis se aborda el problema selección de variables en dos posibles escenarios, uno es la detección de anomalías en situaciones semisupervisadas y la otra es clasificación en escenarios supervisados. En el primer caso se desarrolló un esquema de aprendizaje activo que utiliza modelos probabilísticos y clustering en subespacios para detectar anomalías relevantes en algunos subespacios de los datos. La búsqueda es guiada utilizando información de la clase de algunos de los elementos, esta información proviene de un usuario experto, que además nos ayuda a incluir conocimiento semántico para mejorar la detección. En el segundo escenario, se desarrolló un novedoso enfoque que busca seleccionar subconjuntos de características o variables para cada instancia de los datos con el objeto de mejorar la exactitud en problemas de clasificación. Este modelo busca subconjuntos de variables discriminativas para clasificar cada dato. Las principales técnicas utilizadas son procesos Gaussianos y técnicas de selección de características para evaluar la discriminatividad de las variables al momento de seleccionarlas. Los resultados en el escenario no supervisado muestran que buscar en subespacios estratégicos es crucial, dado que las anomalías se presentan dispersas entre muchos clusters si se considera el espacio completo de variables. La inclusión de conocimiento semántico ayuda en descartar anomalías irrelevantes que en las primeras etapas del algoritmo fueron clasificadas como interesantes por los modelos que sólo utilizan información de bajo nivel a partir de los datos. Los resultados en el escenario supervisado muestran que la selección local de características tiene un mejor desempeño que la selección global. Además se muestra que la aplicación de procesos Gaussianos es muy útil para obtener buenos resultados en la estimación de la relevancia de las variables sólo utilizando una fracción de los datos en la regresión.

Materias

Mostrar el registro completo del ítem