From the Occam's Razor to a simple, efficient and robust text categorization approach

dc.creatorSilva, Renato Moraes, 1988-
dc.date2017
dc.date2017-03-14T00:00:00Z
dc.date2017-05-05T13:42:28Z
dc.date2017-07-13T19:40:39Z
dc.date2017-05-05T13:42:28Z
dc.date2017-07-13T19:40:39Z
dc.date.accessioned2018-03-29T03:48:33Z
dc.date.available2018-03-29T03:48:33Z
dc.identifierSILVA, Renato Moraes. Da Navalha de Occam a um método de categorização de textos simples, eficiente e robusto. 2017. 1 recurso online (129 p.). Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP.
dc.identifierhttp://repositorio.unicamp.br/jspui/handle/REPOSIP/321936
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/1336591
dc.descriptionOrientadores: Akebo Yamakami, Tiago Agostinho de Almeida
dc.descriptionTese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação
dc.descriptionResumo: Categorização de textos é um problema que tem recebido muita atenção nos últimos anos devido ao aumento expressivo no volume de informações textuais. O processo manual de categorizar documentos de texto é cansativo, tedioso, demorado e muitas vezes impraticável quando o volume de dados é muito grande. Portanto, existe uma grande demanda para que esse processo seja realizado de maneira automática através de métodos computacionais. Embora vários métodos já tenham sido propostos, muitos sofrem com o problema da maldição da dimensionalidade ou apresentam alto custo computacional, inviabilizando seu uso em cenários reais. Diante disso, esta tese apresenta um método de categorização de texto baseado no princípio da descrição mais simples, nomeado MDLText, que é eficiente, rápido, escalável e multiclasse. Ele possui aprendizado rápido, incremental e é suficientemente robusto para evitar o problema de superajustamento aos dados, o que é altamente desejável em problemas reais, dinâmicos, online e de grande porte. Experimentos realizados com bases de dados reais, grandes e públicas, seguidos por uma análise estatística dos resultados, indicam que o MDLText oferece um excelente balanceamento entre poder preditivo e custo computacional. Diante desses bons resultados, foi proposta uma generalização inicial do método para lidar também com problemas não-textuais, o que resultou em um método de classificação, nomeado MDLClass, que é simples, rápido e pode ser aplicado em problemas binários e multiclasses. A análise estatística dos resultados indicou que ele é equivalente à maioria dos métodos considerados o estado-da-arte em classificação
dc.descriptionAbstract: ext categorization has received attention in recent years because of the ever-increasing volume of text information. For large number of documents, a manual classification is tiresome, tedious, time-consuming, and impractical, making computational methods attractive to deal with this task. The available methods that address this problem suffer from their computational burden and the curse of dimensionality, undermining their applicability in real scenarios. To overcome this limitation, we propose a simpler, faster, scalable and more efficient classification method based on the minimum description length principle, named MDLText. Its incremental and faster learning process makes it suitable to cope with data overfitting, which is desirable for real and large-scale problems. Experiments performed on real, public, and large-scale datasets followed by statistical analyses indicate that the MDLText provides an excellent trade-off between predictive capability and computational cost. Motivated by these results, we propose a generalized method, named MDLClass, to encompass non-textual problems. Similar to MDLText, this extension is simple and fast, and can also be applied to binary and multiclass classification problems. Statistical analyses show that MDLClass is equivalent to most of the state-of-the-art classification methods
dc.descriptionDoutorado
dc.descriptionAutomação
dc.descriptionDoutor em Engenharia Elétrica
dc.description141089/2013-0
dc.descriptionCNPQ
dc.format1 recurso online (129 p.) : il., digital, arquivo PDF.
dc.formatapplication/pdf
dc.publisher[s.n.]
dc.relationRequisitos do sistema: Software para leitura de arquivo em PDF
dc.subjectAprendizado de máquina
dc.subjectReconhecimento de padrões
dc.subjectComprimento Minimo de Descrição (Teoria da informação)
dc.subjectMachine learning
dc.subjectPattern recognition
dc.subjectMinimum description length (Information Theory)
dc.titleDa Navalha de Occam a um método de categorização de textos simples, eficiente e robusto
dc.titleFrom the Occam's Razor to a simple, efficient and robust text categorization approach
dc.typeTesis


Este ítem pertenece a la siguiente institución