dc.contributorJESUS ARIEL CARRAZCO OCHOA
dc.contributorJOSE FRANCISCO MARTINEZ TRINIDAD
dc.creatorFREDY RODRIGUEZ TORRES
dc.date2017-03
dc.date.accessioned2018-11-19T14:26:37Z
dc.date.available2018-11-19T14:26:37Z
dc.identifierhttp://inaoe.repositorioinstitucional.mx/jspui/handle/1009/335
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/2258479
dc.descriptionEn diferentes aplicaciones prácticas es común que se presente desbalance entre clases. Este problema aparece cuando la cantidad de objetos en una clase es mucho menor que en la otra. Esta diferencia en el tamaño de las clases causa que los métodos de clasificación favorezcan a la clase con mayor cantidad de objetos (mayoritaria), produciendo un mal desempeño de clasificación para la clase con menor cantidad de objetos (minoritaria). Las soluciones propuestas en la literatura, para el problema de desbalance entre clases, pueden dividirse en dos tipos: soluciones a nivel algorítmico y soluciones a nivel de datos. Las soluciones a nivel algorítmico modifican los algoritmos de clasificación para mejorar la clasificación en la clase minoritaria. Por otra parte, las soluciones a nivel de datos utilizan métodos de re-muestreo para balancear el conjunto de datos. Dentro de los métodos de re-muestreo podemos encontrar 3 tipos: submuestreo, sobre-muestreo y re-muestreo híbrido. Los métodos de sub-muestreo reducen la cantidad de objetos en la clase mayoritaria con el objetivo de balancear el conjunto de datos, esto tiene la ventaja de que los modelos de clasificación sean más simples y rápidos. Los métodos de sobre-muestreo incrementan la cantidad de objetos de la clase minoritaria al generar nuevos objetos sintéticos. Dicha generación tiene como objetivo balancear el conjunto de datos, resultando a la vez en una mejora de la clasificación para los objetos de la clase minoritaria, los cuales usualmente son los de mayor interés. Finalmente, los métodos de re-muestreo híbrido combinan los dos tipos de métodos anteriores, persiguiendo las ventajas de ambos. En esta tesis se propone una versión determinista de SMOTE (Synthetic Minority Over-sampling Technique), uno de los métodos de sobre-muestreo más conocidos de la literatura, el cual genera objetos sintéticos de forma aleatoria entre dos objetos de la clase minoritaria. En esta tesis no estudiamos los métodos de sub-muestreo, ya que nuestro principal interés es mejorar la clasificación de objetos de la clase minoritaria, sin eliminar objetos de la clase mayoritaria, lo cual puede producir pérdida de información importante. Finalmente, se realizó una comparación del método propuesto contra SMOTE y algunos métodos de sobre-muestreo basados en SMOTE, utilizando conjuntos de datos con desbalance obtenidos del repositorio KEEL, mostrando las bondades del método propuesto.
dc.formatapplication/pdf
dc.languagespa
dc.publisherInstituto Nacional de Astrofísica, Óptica y Electrónica
dc.relationcitation:Rodriguez-Torres F.
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subjectinfo:eu-repo/classification/Determinist of SMOTE/Determinist of SMOTE
dc.subjectinfo:eu-repo/classification/Clase minoritaria/Minority class
dc.subjectinfo:eu-repo/classification/SMOTE/SMOTE
dc.subjectinfo:eu-repo/classification/Over-sampling based on SMOTE/Over-sampling based on SMOTE
dc.subjectinfo:eu-repo/classification/cti/1
dc.subjectinfo:eu-repo/classification/cti/12
dc.subjectinfo:eu-repo/classification/cti/1203
dc.titleSMOTE-D, Una versión determinista de SMOTE
dc.typeTesis
dc.typeinfo:eu-repo/semantics/acceptedVersion
dc.audiencestudents
dc.audienceresearchers
dc.audiencegeneralPublic


Este ítem pertenece a la siguiente institución