info:eu-repo/semantics/masterThesis
Autotext: autoML for text classification
Autor
Jorge Madrid
Resumen
Non-experts in Machine Learning research have an increasing demand for easy-to-use methods to model solutions that use the large amounts of data available today, where such solutions are expected to perform at least as well as one build by a human with profound knowledge of ML and statistics. AutoML is the area that investigates the automation of Machine Learning. Some state-of-the-art methods for approaching this problem are already available, nonetheless none of them concentrate on the challenges of Natural Language Processing. This work comprises an extensive study in text classification where 81 different problems were approached with the most commonly used algorithms. Leveraging the obtained metadata from these experiments, a method that automatically builds pipelines for classifying text documents is proposed. This method contemplates the optimization of a classification model and its hyper-parameters as well as the selection of the representation vector for a text in a given set of unprocessed text documents. A characterization for tasks is introduced as part of this method, but the reach of this novel description is not limited to AutoML problems. Results in our experimentation show that the proposed AutoML method and the novel characterization outperform previous approaches for automating text classification and under certain circumstances obtain comparable results to state-of-theart models. Being one of the first works to explore AutoML in NLP, several further questions can be derived from this thesis with potential impact for both fields. Personas con poca experiencia en aprendizaje de máquina tienen una creciente demanda de métodos fáciles de usar para modelar soluciones que aprovechen la gran cantidad de datos disponible en la actualidad, se espera que dichas soluciones funcionen al menos tan bien como una construida por un humano con profundo conocimiento en aprendizaje de máquina y estadística. AutoML es el área que investiga la automatización del aprendizaje de máquina. En el estado del arte existen algunos métodos disponibles que abordan dicho problema, sin embargo, ninguno de ellos se concentra en los retos de Procesamiento de Lenguaje Natural.
Este trabajo comprende un extenso estudio en classificación de textos donde 81 problemas son aborados usando los algoritmos más comunmente usados. Aprovechando los meta-datos
obtenidos de estos experimentos, un método que construye automáticamente pipelines para clasificar documentos de texto es propuesto. Dicho método contempla la optimización de un modelo de clasificación así como la selección de una representación vectorial para los textos
dado un conjunto de documentos sin preprocesamiento alguno. Una nueva caracterización para las tareas de clasificación es introducida como parte del método, pero como se muestra en este documento, el alcance de dicha forma de descripción no está limitada al problema de AutoML. Los resultados obtenidos en nuestra experimentación muestran que el método de AutoML propuesto y la caracterización superan los resultados de enfoques anteriores para la automatización de tareas de clasificación de texto, y bajo ciertas circunstancias obtienen resultados comparables a modelos del estado del arte. Siendo uno de los primeros trabajos en explorar AutoML en NLP, varias preguntas pueden derivarse de esta tesis teniendo así impacto en ambas áreas.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México
Luis Enrique García Barrios; Eduardo Bello Baltazar; Manuel Roberto Parra Vázquez