Trabajo de grado - Maestría
Comparación entre métodos para clasificación usando algunas distribuciones multivariadas
Fecha
2014-07-29Autor
Cortés Vélez, Catalina Inés
Institución
Resumen
El problema de establecer similitudes o diferencias en áreas como la genética, biología, ciencias médicas, ingeniería, entre otras, es llamado problema de clasificación, consiste en asignar una pertenencia a determinado individuo ya sea por sus características, orden o estructura. En un trabajo previo Salazar, Vélez y Salazar comparan vía simulación la eficiencia de las máquinas de soporte vectorial y la Regresión Logística, para datos que necesiten la clasificación en dos grupos y que posean una distribución univariada. En este trabajo se compara la eficiencia de Regresión Logística, Máquinas de Soporte Vectorial, Análisis Discriminante y Clasificador Fuzzy, para clasificar un grupo de datos en dos categorías mutuamente excluyentes, en el escenario de datos multivariados provenientes de poblaciones con distribución normal multivariada, normal asimétrica y t multivariada. Dicha eficiencia o desempeño se medirá con la tasa de clasificación errónea. medical sciences, engineering, just to mention some of them is known as classification. This process consists on assigning a subject to a specific group according to his/her features, order or structure. In a previous work, Salazar and Salazar compared the efficiency of both Support Vector Machines -SVM- and Logistic Regression -LR-, using two groups and univariate distributions by means of a simulation study. In this work, we compare the efficiency of the following classifiers to classify a dataset in two category mutually exclusive: Support Vector Machines -SVM-, Logistic Regression - LR-, Discriminant Analysis -DA- and Fuzzy Classifier. The comparison is carried out using multivariate data coming from several multivariate populations. Such efficiency is measured through the False Discovery Rate -FDR-.