Tesis
DETECCIÓN DE FRAGMENTOS DE TEXTO COMO CANDIDATO A HIPERVÍNCULO
Autor
CAMACHO AVILA, MARCELA
GARCÍA HERNÁNDEZ, RENÉ ARNULFO
Institución
Resumen
El enriquecimiento de información en un documento ha permitido comunicar de mejor
manera el mensaje que un autor desea expresar. En el caso de documentos electrónicos, el
enriquecimiento de información se ha dado al incorporar al texto formatos, imágenes,
audios, videos e hipervínculos hacia otros documentos. En particular, la hipervinculación de
documentos electrónicos ha generado la WEB, una red de documentos relacionados entre
sí, en la cual es posible navegar entre ellos de acuerdo a la necesidad de información del
lector de manera que al elegir un hipervínculo se pueda ampliar la información sobre éste.
La hipervinculación de documentos es una tarea de edición e investigación que debe hacer
el autor de manera manual para incorporar tal característica a su documento.
Normalmente, los hipervínculos de un documento se dirigen hacia documentos de la misma
colección al cual pertenece el documento, puesto que otras colecciones al estar en otros
sitios pueden cambiar o eliminar su dirección electrónica lo cual desvincularía al
documento.
La hipervinculación de documentos en la WEB es una tarea dinámica de búsqueda y edición
por parte del autor puesto que depende de los documentos contenidos en la colección. Por
lo que al agregar o eliminar un documento de una colección se podría afectar los
hipervínculos de un documento. Hoy en día es posible ver colecciones de documentos WEB
fuertemente hipervinculadas como lo es Wikipedia, pero también hay ejemplos colecciones
débilmente o nulamente hipervinculadas como las noticias. En el caso de Wikipedia se
encontró que cada documento tiene 49 hipervínculos en promedio, es decir para 20 documentos habría 980 hipervínculos. En este sentido, según la agencia de noticias Notimex
genera 200 noticias por día en promedio y si a cada noticia se le construyeran 49
hipervínculos se tendrían que generar 9800 hipervínculos por día; lo cual es prácticamente
imposible de manera manual.
Como un paso previo a la hipervinculación automática, en este trabajo se investigó si hay
patrones en el texto que el humano sigue para hacer un hipervínculo. Para la
experimentación se utilizaron 10,000 documentos seleccionados aleatoriamente de la
colección Wikipedia 2008 en español. De acuerdo a la experimentación, es posible ver que
hay patrones valiosos ya que por un lado se repiten frecuentemente y por otro lado aunque
son pocos están presentes en varios experimentos, alcanzando un F-measure de 51%.