dc.contributor | JESUS ARIEL CARRAZCO OCHOA | |
dc.contributor | JOSE FRANCISCO MARTINEZ TRINIDAD | |
dc.creator | SAUL SOLORIO FERNANDEZ | |
dc.date | 2010-11 | |
dc.date.accessioned | 2023-07-25T16:21:56Z | |
dc.date.available | 2023-07-25T16:21:56Z | |
dc.identifier | http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/604 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805822 | |
dc.description | Through the years, feature selection has played an important role in areas such as:
Pattern Recognition, Machine Learning and Data Mining, this because in many real
world problems, data are processed as multidimensional vectors (objects of study),
which are described or represented by a feature set. However, in many situations
not all features often contribute to the proper classification or data analysis; so it
can have negative impact the consideration of these features. Such features are
commonly called irrelevant and/or redundant features.
In unsupervised classification, also known as clustering, feature selection
methods have been less studied in comparison with the feature selection methods
for supervised classification. This is mainly because there is no standard measure
for assessing the quality of the clusters, and therefore for assess the relevance of a
feature subset without resorting to the class labels of the objects of study, since for
unsupervised classification problems, labels are not available during the
classification and/or selection process.
As in supervised classification, it is advisable to apply feature selection methods
in the context of unsupervised classification, since irrelevant or redundant features
can adversely and drastically affect the outcome of the clustering algorithms. Also,
because applying the feature selection methods, requirements both storage and
processing are reduced; nowadays, feature selection methods have become very
popular and necessary.
There are two main approaches for unsupervised feature selection: methods that
are based on a filter approach, and the methods with a wrapper approach. The first
methods are characterized by fast and scalable, suitable for working with many
features; on the other hand, the methods with a wrapper approach are often
characterized by the high quality of the feature subsets selected. Recently, hybrid
feature selection methods with a filter-wrapper approach have been
developed. These methods have been less studied than the others, and with them
are intended to have a good compromise between speed that characterizes the methods with filter approach and the quality of the methods with a wrapper
approach.
On the other hand, most hybrid methods in the literature perform “random
sampling of objects”, since they are not able to process the entire dataset due to its
high computational cost. | |
dc.description | A través de los años, la selección de variables ha jugado un papel importante en
áreas tales como: Reconocimiento de Patrones, Aprendizaje Automático y Minería
de Datos, esto debido a que, en muchos problemas del mundo real, habitualmente se
procesan datos en forma de vectores multidimensionales (objetos de estudio)
descritos o representados por un conjunto de variables. Sin embargo, en muchas
situaciones no todas las variables suelen contribuir a la correcta clasificación o
análisis de los datos; pudiendo tener efectos negativos su consideración. Este tipo
de variables se conocen comúnmente como variables irrelevantes y/o redundantes.
En clasificación no supervisada, conocida también como clustering, los
métodos de selección de variables han sido menos estudiados en comparación con
los métodos de selección de variables para clasificación supervisada. Esto se debe
principalmente a que no existe una medida estándar para evaluar la calidad de los
agrupamientos, y por lo tanto para evaluar la relevancia de un subconjunto de
variables sin recurrir a la clase a la que pertenecen los objetos de estudio; ya que
en escenarios no supervisados, las clases no están disponibles durante los procesos
de clasificación y/o selección.
Al igual que en clasificación supervisada, es aconsejable aplicar métodos de
selección variables en el contexto de clasificación no supervisada, ya que las
variables irrelevantes o redundantes pueden afectar drásticamente el resultado de
los algoritmos de agrupamiento. También, debido a que al aplicar los métodos de
selección de variables los requerimientos tanto de almacenamiento como de
procesamiento se reducen; los métodos de selección de variables se han vuelto muy
populares y necesarios en la actualidad.
Existen dos enfoques principales para la selección de variables en clasificación
no supervisada: los métodos que se basan en un enfoque filter, y los métodos con
un enfoque wrapper. Los primeros se caracterizan por ser rápidos y escalables,
adecuados para trabajar con muchas variables; por su parte, los métodos con un
enfoque wrapper a menudo se caracterizan por la buena calidad de los
subconjuntos de variables seleccionados. Recientemente los métodos con un enfoque híbrido filter-wrapper han sido desarrollados. Estos métodos han sido
menos estudiados que los anteriores, y con ellos se pretende tener un buen
compromiso entre la rapidez que caracteriza a los métodos con enfoque filter y la
calidad de los métodos con un enfoque wrapper. | |
dc.format | application/pdf | |
dc.language | spa | |
dc.publisher | Instituto Nacional de Astrofísica, Óptica y Electrónica | |
dc.relation | citation:Solorio-Fernandez S. | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | http://creativecommons.org/licenses/by-nc-nd/4.0 | |
dc.subject | info:eu-repo/classification/Calinski harabase index/Calinski harabase index | |
dc.subject | info:eu-repo/classification/Laplacian score/Laplacian score | |
dc.subject | info:eu-repo/classification/Clasificación de funciones/Feature ranking | |
dc.subject | info:eu-repo/classification/Selección de funciones no supervisadas/Unsupervised feature selection | |
dc.subject | info:eu-repo/classification/Agrupación de patrones/Pattern clustering | |
dc.subject | info:eu-repo/classification/Clustering no supervisado/Unsupervised clustering | |
dc.subject | info:eu-repo/classification/cti/1 | |
dc.subject | info:eu-repo/classification/cti/12 | |
dc.subject | info:eu-repo/classification/cti/1203 | |
dc.subject | info:eu-repo/classification/cti/1203 | |
dc.title | Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper | |
dc.type | info:eu-repo/semantics/masterThesis | |
dc.type | info:eu-repo/semantics/acceptedVersion | |
dc.audience | students | |
dc.audience | researchers | |
dc.audience | generalPublic | |