Tesis
COMPARACIÓN DE MEDIDAS DE SIMILITUD PARA DESAMBIGUACIÓN DEL SENTIDO DE LAS PALABRAS UTILIZANDO RANKEO DE GRAFOS.
Registro en:
Vargas Flores, S., Nikolaevna Ledeneva, Y., García Hernández, R., & Sidorov, G. (2016). COMPARACIÓN DE MEDIDAS DE SIMILITUD PARA DESAMBIGUACIÓN DEL SENTIDO DE LAS PALABRAS UTILIZANDO RANKEO DE GRAFOS. (Maestría en Ciencias de la Computación). UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO.
Autor
VARGAS FLORES, SELENE ITZEL
LEDENEVA, YULIA NIKOLAEVNA
GARCÍA HERNÁNDEZ, RENÉ ARNULFO
SIDOROV, Grigori
Institución
Resumen
La desambiguación del sentido de las palabras es uno de los problemas más importantes del área del procesamiento del lenguaje natural. Es indispensable en la aplicación de diferentes tarea tales como recuperación de información, traducción automática, búsqueda de respuestas y generación automática de resúmenes, entre otras. Resolver el problema de la desambiguación del sentido de las palabras consiste en seleccionar el sentido correcto de una palabra en un contexto específico de un conjunto determinado de sentidos posibles.
En esta tesis, se utiliza la tarea léxica completa english-all-words en el idioma inglés del foro de Senseval-2 y el diccionario de sentidos llamado WordNet en la versión 2.1. Para todas las palabras a desambiguar se extraen todos los sentidos del dicho diccionario y se selecciona un sentido correcto.
Uno de los mejores métodos que se aplica para esta tarea es el método de rankeo basado en grafos, llamado TextRank [Mihalcea, 2006]. Se propone comparar diferentes medidas de similitud en este método de rankeo de grafos, que son la medida de coseno, la medida de edición y la subsecuencia común más larga (del inglés, Longest Common Subsequence (LCS)). La evaluación se realiza utilizando las medidas de Precisión y Recuerdo.