Tesis
Tag Clouds para investigadores de Ciencias de la Computación
Autor
Ríos Araya, Paula Andrea
Institución
Resumen
Actualmente, existen millones de publicaciones de investigadores en distintas áreas de las Ciencias de la Computación, y estas continúan aumentando día a día. En los perfiles de cada investigador del área en sitios web como DBLP o Google Scholar, se puede encontrar un listado con sus publicaciones. Sin embargo, con esta información por sí sola es difícil captar cuáles son los tópicos de interés de cada investigador a simple vista, y podría ser necesario en un ámbito de colaboración entre académicos o entre académicos y estudiantes.
Este trabajo busca facilitar la información resumida de los tópicos de investigación de académicos de Ciencias de la Computación mediante la generación de visualizaciones como nubes de palabras, o tag clouds, a partir de las palabras y frases clave mencionadas en las publicaciones encontradas en repositorios bibliográficos online, como los mencionados anteriormente.
El sistema desarrollado en esta memoria consiste en una herramienta que permite la creación de tag clouds para perfiles de DBLP. Esta herramienta se encarga de la obtención de las publicaciones encontradas en el perfil, la extracción de potenciales keywords y la selección de las keywords más relevantes según cuatro modelos de ordenamiento. Por cada uno de estos modelos se crea una variante de tag cloud. Además, se crea un sitio web que permite el uso de la herramienta para cualquier usuario.
El trabajo se enfoca principalmente en la investigación de modelos de learning to rank y la comparación de su desempeño en la tarea de definir las keywords más relevantes para un investigador de Ciencias de la Computación. Dado que existen tres enfoques distintos para resolver la tarea de ordenamiento, se utilizan cuatro modelos de learning to rank, teniendo al menos uno por cada enfoque. Estos son regresión lineal, RankSVM, LambdaMART y AdaRank.
De las evaluaciones a las tag clouds creadas por la herramienta se observa que no habría una preferencia absoluta por un método por sobre los demás, sino que varía según cada persona, pero en la mayoría de los casos se le asigna el puntaje máximo a al menos una de las tag clouds generadas. Esto podría deberse a que los modelos tienden a diferir en su enfoque, en algunos casos seleccionando keywords más técnicas y en otros más genéricas. De esta forma la apreciación de un método por sobre el otro se ve afectada por las preferencias de cada uno. De esto se concluye la importancia de dar la posibilidad de elegir a los usuarios entre distintas variantes.