dc.contributorChiruzzo, Luis
dc.contributorEtcheverry, Mathias
dc.contributorLastra Rodrigo, Universidad de la República (Uruguay). Facultad de Ingeniería
dc.creatorLastra, Rodrigo
dc.date.accessioned2020-02-05T22:18:16Z
dc.date.accessioned2022-10-28T19:58:17Z
dc.date.available2020-02-05T22:18:16Z
dc.date.available2022-10-28T19:58:17Z
dc.date.created2020-02-05T22:18:16Z
dc.date.issued2019
dc.identifierLastra, R. Inducción del sentido de las palabras para el Idioma español [en línea]. Tesis de grado. Montevideo : Udelar. FI. INCO, 2019.
dc.identifierhttps://hdl.handle.net/20.500.12008/23043
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/4977206
dc.description.abstractEn cualquier lenguaje natural, existe una gran cantidad de palabras con más de un significado posible. Las máquinas necesitan procesar información textual no estructurada y transformarla en estructuras que puedan analizarse para determinar los significados de las palabras. El problema de identificar, computacionalmente, el significado de una o más palabras en su contexto es conocido como Word Sense Disambiguation (WSD). Para la resolución de WSD es necesario contar con inventarios de significados utilizables computacionalmente de calidad para el lenguaje a desambiguar, que sean a la vez relevantes para el dominio de aplicación en el que se busca realizar la desambiguación. A su vez la construcción de sistemas de aprendizaje automático supervisado o basados en conocimiento requieren otros tipos de recursos lingüísticos (tesauros, ontologías, etc.). Tanto los inventarios de significados como este otro tipo de recursos son costosos de construir en tiempo y recursos, y son dependientes del dominio de aplicación y el lenguaje. Para evitarlo, se recurre a técnicas de aprendizaje no supervisado que descubren automáticamente los posibles significados de una palabra, a partir de corpus sin anotar. Este problema se conoce como Word Sense Induction (WSI). Lamentablemente, en español los esfuerzos en WSI han sido prácticamente inexistentes. Este trabajo, busca aplicar en español una técnica de WSI denominada “WSI with neural biLM and symmetric patterns” basada en un modelo de lenguaje neuronal direccional biLM ELMo que obtuvo un rendimiento superior a los previamente reportados para la tarea de referencia SemEval 2013 Task 13 para el idioma inglés. La evaluación del método de desambiguación en español se realizará sobre la tarea Senseval 2 Spanish Lexical Sample .Para la aplicación del método de desambiguación, fue necesario realizar el entrenamiento del modelo de lenguaje biLM ELMo para el español, del cual pueden obtenerse embeddings con o sin contexto, así como ser utilizado como un modelo de lenguaje completo. Se trata de un recurso que no se encontraba disponible previamente en forma completa y que se encuentra disponible públicamente.
dc.languagees
dc.publisherUdelar.FI.
dc.rightsLicencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
dc.rightsLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)
dc.subjectProcesamiento de lenguaje natural (NLP)
dc.subjectWord Sense Disambiguation (WSD)
dc.subjectKnowledge acquisition bottleneck
dc.subjectWord Sense Induction (WSI)
dc.subjectELMo
dc.subjectSymmetric patterns
dc.subjectModelo de lenguaje neuronal
dc.subjectEmbeddings
dc.titleInducción del sentido de las palabras para el Idioma español.
dc.typeTesis de grado


Este ítem pertenece a la siguiente institución