A relevance feedback approach for the author name disambiguation problem

dc.creatorGodoi, Thiago Anzolin de, 1989-
dc.date2013
dc.date2013-06-12T00:00:00Z
dc.date2017-04-02T01:47:46Z
dc.date2017-06-09T15:08:25Z
dc.date2017-04-02T01:47:46Z
dc.date2017-06-09T15:08:25Z
dc.date.accessioned2018-03-29T02:20:44Z
dc.date.available2018-03-29T02:20:44Z
dc.identifierGODOI, Thiago Anzolin de. Uma abordagem baseada em realimentação de relevância para o problema da desambiguação de nome de autores. 2013. 50 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.bibliotecadigital.unicamp.br/document/?code=000926578>. Acesso em: 1 abr. 2017.
dc.identifierhttp://repositorio.unicamp.br/jspui/handle/REPOSIP/275497
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/1314506
dc.descriptionOrientadores: Ariadne Maria Brito Rizzoni Carvalho, Ricardo da Silva Torres
dc.descriptionDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
dc.descriptionResumo: Este trabalho apresenta um novo método semiautomático para desambiguação de nomes que explora a utilização de iterações com realimentação de relevância. Uma etapa não supervisionada é utilizada para definir exemplos puros para o treinamento, e uma etapa híbrida supervisionada é empregada para aprender a função de classificação que irá atribuir autores a referências. O modelo combina um classificador por floresta de caminhos ótimos (OPF - Optimum-Path Forest) com uma função de similaridade complexa gerada por um algoritmo de Programação Genética (PG). As principais contribuições deste trabalho são: (i) proposta de um novo método para desambiguação de nomes de autores; (ii) avaliação em uma nova aplicação, da combinação entre os algoritmos OPF e PG, também conhecida como GOPF (Genetic Programming e Optimum-Path Forest), incrementada por uma etapa de realimentação de relevância; (iii) avaliação do algoritmo do GOPF em um problema de classificação multiclasse; e (iv) adaptação do algoritmo do GOPF para lidar com problemas de classificação de conjunto aberto, isto é, que não possuem todas as classes definidas previamente. O método proposto foi validado em duas coleções tradicionais muito utilizadas para avaliação de métodos de desambiguação de nomes de autores. A primeira é a coleção extraída da DBLP e que possui 4.287 referências associadas a 220 autores distintos; a segunda é chamada de KISTI, gerada pelo Korea Institute of Science Technology Information, e que contém os primeiros 1000 autores mais frequentes na versão do banco de dados da DBLP no final de 2007. Após 5 iterações de realimentação do usuário, nossa abordagem atingiu os melhores resultados para a desambiguação de nomes de autores quando comparado com os outros métodos existentes que utilizam somente as informações básicas da referência
dc.descriptionAbstract: This work presents a new name disambiguation method that exploits user feedback on ambiguous references across iterations. An unsupervised step is used to define pure training samples, and a hybrid supervised step is employed to learn a classification model for assigning references to authors. Our disambiguation method combines the Optimum-Path Forest (OPF) classifier with complex reference similarity functions generated by a Genetic Programming (GP) framework. The main contributions of this work are: (i) proposal of a novel author name desambiguation method; (ii) evaluation in a new application of the combination between GP and OPF algorithms, also known as GOPF, in interaction learning systems; (iii) evaluation of the GOPF algorithm in a multi-class classification problem; and (iv) extension of the GOPF algorithm to handle open-set classification problems, i.e., classification problems in which class samples are not known in advance. The proposed method was validated with two traditional databases largely used for the evaluation of author name disambiguation methods: one is a collection extracted from DBLP which sums up 4,287 references associated with 220 distinct authors; the other is called KISTI and was built by the Korea Institute of Science and Technology Information; it contains the top 1000 most frequent author names from the late-2007 DBLP database. After 5 iterations of relevance feedback, our approach yielded the best results for author name disambiguation when compared with the state-of-the-art methods that just consider basic reference information, such as author names, publication title, and venue title
dc.descriptionMestrado
dc.descriptionCiência da Computação
dc.descriptionMestre em Ciência da Computação
dc.format50 p. : il.
dc.formatapplication/octet-stream
dc.publisher[s.n.]
dc.subjectProgramação genética (Computação)
dc.subjectReconhecimento de padrões
dc.subjectSistemas de recuperação da informação
dc.subjectGenetic programming (Computer science)
dc.subjectPattern recognition
dc.subjectInformation storage and retrieval systems
dc.titleUma abordagem baseada em realimentação de relevância para o problema da desambiguação de nome de autores
dc.titleA relevance feedback approach for the author name disambiguation problem
dc.typeTesis


Este ítem pertenece a la siguiente institución