Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)

Nuñez Torres, Fredy Rodrigo; Pérez Cabello de Alba, María Beatriz

dc.creator	Nuñez Torres, Fredy Rodrigo
dc.creator	Pérez Cabello de Alba, María Beatriz
dc.date.accessioned	2023-10-11T19:40:05Z
dc.date.accessioned	2024-05-02T18:03:09Z
dc.date.available	2023-10-11T19:40:05Z
dc.date.available	2024-05-02T18:03:09Z
dc.date.created	2023-10-11T19:40:05Z
dc.date.issued	2022
dc.identifier	1885-9089
dc.identifier	https://rael.aesla.org.es/index.php/RAEL/article/view/504
dc.identifier	https://repositorio.uc.cl/handle/11534/75091
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/9269663
dc.description.abstract	Uno de los mayores desafíos que se nos presentan a la hora de acometer tareas relacionadas con el procesamiento del lenguaje natural y, en particular, con el tratamiento de recursos lingüísticos informatizados, es la ambigüedad léxica. En este trabajo abordamos el tratamiento de la desambiguación léxica dentro del entorno informático DAMIEN (Data Mining ENcountered), una herramienta que integra técnicas de múltiples disciplinas dentro de análisis de texto (i.e. lingüística de corpus, estadística y minería textual) para ayudar en tareas de investigación lingüística (i.e. recolección de datos, extracción de información, clasificación de textos, entre otras). A modo de experimento ilustrativo, llevamos a cabo un estudio de las unidades léxicas polisémicas “cabeza”, “cara” y “carta”, y presentamos los resultados del sistema de desambiguación automática desarrollado con la herramienta DAMIEN. Dentro de los modelos que ofrece el entorno, hemos elegido el método de aprendizaje automático supervisado mediante algoritmo bayesiano ingenuo por tratarse del método que mejores resultados ha dado para la desambiguación léxica automática. Se trata de un modelo matemático que consiste en extraer información de un corpus a partir de conjuntos de datos previamente etiquetados (corpus de entrenamiento) para que la máquina pueda clasificar automáticamente conjuntos de datos nuevos (corpus de prueba). Es importante resaltar la flexibilidad y riqueza del entorno DAMIEN tanto para el tratamiento de recursos lingüísticos informatizados como para el montaje de experimentos del procesamiento del lenguaje natural.
dc.language	es
dc.rights	acceso abierto
dc.subject	Lingüistica computacional
dc.subject	Procesamiento del lenguaje natural
dc.subject	Lingüística de corpus
dc.subject	Ambigüedad léxica
dc.subject	Aprendizaje automático
dc.title	Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)
dc.type	artículo

Este ítem pertenece a la siguiente institución

Pontificia Universidad Católica de Chile