masterThesis
Clasificador de máquinas de vectores de soporte para problemas desbalanceados con selección automática de parámetros
Registro en:
T621.31 J61;6310000132623 F7129
Autor
Jiménez Castaño, Cristian Alfonso
Institución
Resumen
La mayoría de los métodos de clasificación asumen que el número de muestras en las clases estudiadas son las mismas (balanceadas). Sin embargo, realizar esta asunción puede llevar a desempeños sesgados, ya que, la mayoría de aplicaciones y bases de datos reales no son balanceadas, llevando a que estos métodos ignoren la clase minoritaria (la clase con el menor número de muestras). Este trabajo propone un clasificador novedoso, llamado enhanced twin support vector machine–(ETWSVM), que representa las muestras de entrada en un espacio de características de alta dimensionalidad, posiblemente infinita, durante la construcción de una frontera de decisión bajo la filosofía del twin support vector machine–(TWSVM). También, usamos un método basado en centered kernel alignment–(CKA) para aprender la función kernel con el fin de contrarrestar los problemas inherentes del desbalance y mejorar la separabilidad de los datos. Además, adoptamos las estrategias One-versus-Rest y One-versus-One para extender la formulación del ETWSVM a tareas de clasificación multiclase. De los resultados obtenidos sobre bases de datos sintéticas y reales, nuestra propuesta supera métodos del estado del arte con respecto al desempeño (precisión, media geométrica, F-measure), y tiempo de entrenamiento. En efecto, después analizamos la sensibilidad de los parámetros libres para diferentes tasas de desbalance y traslape entre las clases, y sugerimos una variante del ETWSVMN automático que registra una indicada relación entre desempeño de clasificación y tiempo de entrenamiento.