dc.contributorLEDENEVA, YULIA NIKOLAEVNA
dc.contributorTAPIA FABELA, JOSÉ LUIS
dc.creatorCAMACHO AVILA, MARCELA
dc.creatorGARCÍA HERNÁNDEZ, RENÉ ARNULFO
dc.date2016-07-12T00:31:03Z
dc.date2016-07-12T00:31:03Z
dc.date2015-01
dc.date.accessioned2017-05-16T15:32:38Z
dc.date.available2017-05-16T15:32:38Z
dc.identifierAPA
dc.identifierhttp://hdl.handle.net/20.500.11799/49781
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/989655
dc.descriptionEl enriquecimiento de información en un documento ha permitido comunicar de mejor manera el mensaje que un autor desea expresar. En el caso de documentos electrónicos, el enriquecimiento de información se ha dado al incorporar al texto formatos, imágenes, audios, videos e hipervínculos hacia otros documentos. En particular, la hipervinculación de documentos electrónicos ha generado la WEB, una red de documentos relacionados entre sí, en la cual es posible navegar entre ellos de acuerdo a la necesidad de información del lector de manera que al elegir un hipervínculo se pueda ampliar la información sobre éste. La hipervinculación de documentos es una tarea de edición e investigación que debe hacer el autor de manera manual para incorporar tal característica a su documento. Normalmente, los hipervínculos de un documento se dirigen hacia documentos de la misma colección al cual pertenece el documento, puesto que otras colecciones al estar en otros sitios pueden cambiar o eliminar su dirección electrónica lo cual desvincularía al documento. La hipervinculación de documentos en la WEB es una tarea dinámica de búsqueda y edición por parte del autor puesto que depende de los documentos contenidos en la colección. Por lo que al agregar o eliminar un documento de una colección se podría afectar los hipervínculos de un documento. Hoy en día es posible ver colecciones de documentos WEB fuertemente hipervinculadas como lo es Wikipedia, pero también hay ejemplos colecciones débilmente o nulamente hipervinculadas como las noticias. En el caso de Wikipedia se encontró que cada documento tiene 49 hipervínculos en promedio, es decir para 20 documentos habría 980 hipervínculos. En este sentido, según la agencia de noticias Notimex genera 200 noticias por día en promedio y si a cada noticia se le construyeran 49 hipervínculos se tendrían que generar 9800 hipervínculos por día; lo cual es prácticamente imposible de manera manual. Como un paso previo a la hipervinculación automática, en este trabajo se investigó si hay patrones en el texto que el humano sigue para hacer un hipervínculo. Para la experimentación se utilizaron 10,000 documentos seleccionados aleatoriamente de la colección Wikipedia 2008 en español. De acuerdo a la experimentación, es posible ver que hay patrones valiosos ya que por un lado se repiten frecuentemente y por otro lado aunque son pocos están presentes en varios experimentos, alcanzando un F-measure de 51%.
dc.languagespa
dc.publisherUNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO
dc.rightsopenAccess
dc.subjectHIPERVÍNCULO
dc.subjectPATRÓN LÉXICO
dc.subjectSECUENCIAS FRECUENTES MAXIMALES (SFM)
dc.subjectWIKIPEDIA
dc.subjectEXPRESIÓN REGULAR
dc.titleDETECCIÓN DE FRAGMENTOS DE TEXTO COMO CANDIDATO A HIPERVÍNCULO
dc.typeTesis


Este ítem pertenece a la siguiente institución