bachelorThesis
Módulo para Clasificación Automática y Temática de Páginas Web.
Registro en:
Tesis (Ingeniera en Sistemas), Universidad San Francisco de Quito, Colegio Politécnico; Quito, Ecuador, 2012.
QA 76.9 .A43 G37 2012
Autor
García Muñoz, María del Cisne
Institución
Resumen
The web has become one of the most commonly used media today, most designers, programmers
and users, work with the information found on the web. It is therefore vital to use the available
resources in the best way that we can. This can only be achieved by having algorithms that solve
the needs in the shortest time possible. This is where classification algorithms play an important
role, because not only they can improve the quality of searches performed, but also to optimize
the resources, that now are concentrated in the appropriate topic.
This is the reason why, this project proposes to build a Simple and efficient prototype of
automatic classification, using TFIDF coefficients and bagging techniques for integration with
Psearch system. The objective is to find a balance between accuracy and response time to allow
the system to deliver better results to the Psearch users. The module uses simple pre-processing
techniques to extract vital information from each of the HTML document and then classify them
with accuracy above 90%. La web se ha transformado en uno de los medios de comunicación más utilizados en la
actualidad, la mayoría de diseñadores, programadores y usuarios, trabajan con la información
que se encuentra en la web. Por ello es de vital importancia la mejor utilización de los
recursos disponibles que solamente se logra al contar con algoritmos que resuelvan las
necesidades en el menor tiempo posible. Es aquí donde los algoritmos de clasificación juegan
un papel muy importante, ya que no solo pueden mejorar la calidad de las búsquedas que se
realizan, sino que también permiten optimizar los recursos que ahora se concentran en el
tema adecuado. Por ello, el presente proyecto propone, mediante la utilización de
coeficientes TFIDF y la técnica de embolsamiento, construir un prototipo de módulo de
clasificación automática, temática, simple y eficiente de páginas web, para la integración con
el sistema de búsquedas PSearch. Se busca un balance entre exactitud y tiempo de respuesta,
para permitir que el sistema PSearch entregue mejores resultados a sus usuarios. Mediante la
selección de técnicas de pre-procesamiento simples se quiere extraer información crítica de
cada uno de los doc