Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper

SAUL SOLORIO FERNANDEZ

dc.contributor	JESUS ARIEL CARRAZCO OCHOA
dc.contributor	JOSE FRANCISCO MARTINEZ TRINIDAD
dc.creator	SAUL SOLORIO FERNANDEZ
dc.date	2010-11
dc.date.accessioned	2023-07-25T16:21:56Z
dc.date.available	2023-07-25T16:21:56Z
dc.identifier	http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/604
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805822
dc.description	Through the years, feature selection has played an important role in areas such as: Pattern Recognition, Machine Learning and Data Mining, this because in many real world problems, data are processed as multidimensional vectors (objects of study), which are described or represented by a feature set. However, in many situations not all features often contribute to the proper classification or data analysis; so it can have negative impact the consideration of these features. Such features are commonly called irrelevant and/or redundant features. In unsupervised classification, also known as clustering, feature selection methods have been less studied in comparison with the feature selection methods for supervised classification. This is mainly because there is no standard measure for assessing the quality of the clusters, and therefore for assess the relevance of a feature subset without resorting to the class labels of the objects of study, since for unsupervised classification problems, labels are not available during the classification and/or selection process. As in supervised classification, it is advisable to apply feature selection methods in the context of unsupervised classification, since irrelevant or redundant features can adversely and drastically affect the outcome of the clustering algorithms. Also, because applying the feature selection methods, requirements both storage and processing are reduced; nowadays, feature selection methods have become very popular and necessary. There are two main approaches for unsupervised feature selection: methods that are based on a filter approach, and the methods with a wrapper approach. The first methods are characterized by fast and scalable, suitable for working with many features; on the other hand, the methods with a wrapper approach are often characterized by the high quality of the feature subsets selected. Recently, hybrid feature selection methods with a filter-wrapper approach have been developed. These methods have been less studied than the others, and with them are intended to have a good compromise between speed that characterizes the methods with filter approach and the quality of the methods with a wrapper approach. On the other hand, most hybrid methods in the literature perform “random sampling of objects”, since they are not able to process the entire dataset due to its high computational cost.
dc.description	A través de los años, la selección de variables ha jugado un papel importante en áreas tales como: Reconocimiento de Patrones, Aprendizaje Automático y Minería de Datos, esto debido a que, en muchos problemas del mundo real, habitualmente se procesan datos en forma de vectores multidimensionales (objetos de estudio) descritos o representados por un conjunto de variables. Sin embargo, en muchas situaciones no todas las variables suelen contribuir a la correcta clasificación o análisis de los datos; pudiendo tener efectos negativos su consideración. Este tipo de variables se conocen comúnmente como variables irrelevantes y/o redundantes. En clasificación no supervisada, conocida también como clustering, los métodos de selección de variables han sido menos estudiados en comparación con los métodos de selección de variables para clasificación supervisada. Esto se debe principalmente a que no existe una medida estándar para evaluar la calidad de los agrupamientos, y por lo tanto para evaluar la relevancia de un subconjunto de variables sin recurrir a la clase a la que pertenecen los objetos de estudio; ya que en escenarios no supervisados, las clases no están disponibles durante los procesos de clasificación y/o selección. Al igual que en clasificación supervisada, es aconsejable aplicar métodos de selección variables en el contexto de clasificación no supervisada, ya que las variables irrelevantes o redundantes pueden afectar drásticamente el resultado de los algoritmos de agrupamiento. También, debido a que al aplicar los métodos de selección de variables los requerimientos tanto de almacenamiento como de procesamiento se reducen; los métodos de selección de variables se han vuelto muy populares y necesarios en la actualidad. Existen dos enfoques principales para la selección de variables en clasificación no supervisada: los métodos que se basan en un enfoque filter, y los métodos con un enfoque wrapper. Los primeros se caracterizan por ser rápidos y escalables, adecuados para trabajar con muchas variables; por su parte, los métodos con un enfoque wrapper a menudo se caracterizan por la buena calidad de los subconjuntos de variables seleccionados. Recientemente los métodos con un enfoque híbrido filter-wrapper han sido desarrollados. Estos métodos han sido menos estudiados que los anteriores, y con ellos se pretende tener un buen compromiso entre la rapidez que caracteriza a los métodos con enfoque filter y la calidad de los métodos con un enfoque wrapper.
dc.format	application/pdf
dc.language	spa
dc.publisher	Instituto Nacional de Astrofísica, Óptica y Electrónica
dc.relation	citation:Solorio-Fernandez S.
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject	info:eu-repo/classification/Calinski harabase index/Calinski harabase index
dc.subject	info:eu-repo/classification/Laplacian score/Laplacian score
dc.subject	info:eu-repo/classification/Clasificación de funciones/Feature ranking
dc.subject	info:eu-repo/classification/Selección de funciones no supervisadas/Unsupervised feature selection
dc.subject	info:eu-repo/classification/Agrupación de patrones/Pattern clustering
dc.subject	info:eu-repo/classification/Clustering no supervisado/Unsupervised clustering
dc.subject	info:eu-repo/classification/cti/1
dc.subject	info:eu-repo/classification/cti/12
dc.subject	info:eu-repo/classification/cti/1203
dc.subject	info:eu-repo/classification/cti/1203
dc.title	Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper
dc.type	info:eu-repo/semantics/masterThesis
dc.type	info:eu-repo/semantics/acceptedVersion
dc.audience	students
dc.audience	researchers
dc.audience	generalPublic

Este ítem pertenece a la siguiente institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper

Este ítem pertenece a la siguiente institución

Ítems relacionados

Compendio de innovaciones socioambientales en la frontera sur de México ﻿

Caminar el cafetal: perspectivas socioambientales del café y su gente ﻿

Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración ﻿

Compendio de innovaciones socioambientales en la frontera sur de México

Caminar el cafetal: perspectivas socioambientales del café y su gente

Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración