dc.contributorLUIS VILLASEÑOR PINEDA
dc.contributorMANUEL MONTES Y GOMEZ
dc.creatorROSA MARIA COYOTL MORALES
dc.date2007
dc.date.accessioned2023-07-25T16:21:53Z
dc.date.available2023-07-25T16:21:53Z
dc.identifierhttp://inaoe.repositorioinstitucional.mx/jspui/handle/1009/587
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/7805805
dc.descriptionNowadays there is a large amount of information available in digital format. All this information is useless if we do not have adequate mechanisms for its access, classification and analysis. In particular, text classification concerns the automatic assignment of free text documents to one or more predefined categories. Most work in this field focuses on categorizing documents by their topic. However, a document can be also classified by its written style (non-topic classification). Basically, nontopic classification considers tasks such as sentiment classification, plagiarism detection, authorship attribution, genre classification, etc. The main objective of this thesis is to propose methods for determining the lexical features that allow characterizing the written style of documents. The proposed methods consider the characterization of documents by sets of word sequences that combine content and functional words. The usefulness of this kind of characterization is demonstrated by its application in the tasks of authorship attribution and genre classification.
dc.descriptionEn la actualidad existe una inmensa cantidad de información disponible en formato electrónico. Toda esta información es improductiva si no se dispone con mecanismos apropiados para su acceso, clasificación y análisis. En particular, la clasificación automática de textos consiste en colocar un documento dentro de un grupo de clases previamente definidas. La mayor parte del trabajo en esta área se ha enfocado en la clasificación de textos por su tema o tópico. Sin embargo, un documento también puede ser clasificado de acuerdo a su estilo (clasificación notemática). En la clasificación no-temática se consideran tareas tales como la clasificación de opiniones, la detección de plagio, la atribución de autoría, la clasificación por género, etc. El objetivo principal de esta tesis es proponer métodos que permitan determinar los rasgos léxicos que hacen posible caracterizar el estilo de escritura de los documentos. Los métodos descritos consideran la caracterización de los documentos a través un conjunto de secuencias de palabras que combinan tanto palabras de contenido como funcionales. La utilidad de este tipo de caracterización se demuestra mediante su aplicación en las tareas de atribución de autoría y clasificación por género.
dc.formatapplication/pdf
dc.languagespa
dc.publisherInstituto Nacional de Astrofísica, Óptica y Electrónica
dc.relationcitation:Coyotl-Morales RM
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subjectinfo:eu-repo/classification/Aprendizaje automático/Machine learning
dc.subjectinfo:eu-repo/classification/Clasificación/Classification
dc.subjectinfo:eu-repo/classification/Análisis de la información/Information analysis
dc.subjectinfo:eu-repo/classification/cti/1
dc.subjectinfo:eu-repo/classification/cti/12
dc.subjectinfo:eu-repo/classification/cti/1203
dc.subjectinfo:eu-repo/classification/cti/330405
dc.subjectinfo:eu-repo/classification/cti/330405
dc.titleClasificación automática de textos considerando el estilo de redacción
dc.typeinfo:eu-repo/semantics/masterThesis
dc.typeinfo:eu-repo/semantics/acceptedVersion
dc.audiencestudents
dc.audienceresearchers
dc.audiencegeneralPublic


Este ítem pertenece a la siguiente institución