Artículo de revista
Part-of-speech tagging with maximum entropy and distribution al similarity features in a subregional corpus of Spanish
Fecha
2017-07-01Autor
Rico-Sulayes, Antonio
Saldívar-Arreola, Rafael
Rábago-Tánori, Álvaro
Institución
Resumen
(Eng) With the primary objective of automatically tagging grammar categories in a collection of unstructured text, which was designed to assist in a series of linguistic tasks, this research has used two first-generation automatic taggers for Spanish. These taggers have been applied to the Baja California Corpus del Habla (CHBC) that covers a sub-region of Mexico. The two taggers, one based on the Maximum Entropy principle and the other that adds distributional similarity traits to this statistical model, are recently introduced and a range of precision has not been offered for them. Therefore, this article has had as a second objective to evaluate and provide a figure of proven precision for the language models that underlie the taggers in question. In order to achieve these two objectives, this article has proposed a reduced labeling, which has also been useful in the pursuit of these objectives. Applied to a sample of around 11,000 words and more than 12,500 grammatical labels for two genders (written text and transcribed oral speech), the two labellers, the one for Maximum Entropy and the one that adds distributional similarity traits to it, have obtained results. of 97.2% and 97.4%, respectively. When comparing these figures with the standard criterion of 97.1% obtained among human annotators, the results of both taggers appear competitive, even when applied to an external data collection for which they have not been previously trained or calibrated. This is particularly important because under these types of experimental conditions it has been found that the performance of the labelers can deteriorate. (Spa) Con el objetivo primario de etiquetar automáticamente las categorías gramaticales en una colección de texto no estructurado, la cual fue diseñada para asistir en una serie de tareas lingüísticas, esta investigación ha utilizado dos etiquetadores automáticos de primera generación para el español. Estos etiquetadores han sido aplicados al Corpus del Habla de Baja California (CHBC) que cubre una subregión de México. Los dos etiquetadores, uno basado en el principio de Máxima Entropía y el otro que le suma a este modelo estadístico rasgos de similitud distribucional, son de reciente introducción y no se ha ofrecido un rango de precisión para los mismos. Por tanto, este artículo ha tenido como segundo objetivo el evaluar y proveer una cifra de precisión comprobada para los modelos de lenguaje que subyacen a los etiquetadores en cuestión. Con la finalidad de lograr estos dos objetivos, este artículo ha propuesto un etiquetario reducido, el cual también ha resultado de utilidad en la búsqueda de estos objetivos. Aplicados a una muestra de alrededor de 11,000 palabras y más de 12,500 etiquetas gramaticales para dos géneros (texto escrito y discurso oral transcrito), los dos etiquetadores, el de Máxima Entropía y el que suma a ésta los rasgos de similitud distribucional, han obtenido resultados de 97.2% y 97.4%, respectivamente. Al comparar estas cifras con el criterio estándar de 97.1% obtenido entre anotadores humanos, los resultados de ambos etiquetadores se muestran competitivos, incluso al aplicarlos a una colección de datos externa para la cual no han sido previamente entrenados o calibrados. Esto es particularmente importante porque en este tipo de condiciones experimentales se ha encontrado que el desempeño de los etiquetadores puede deteriorarse.