Named entity recognition on the Web

Joao Mateus de Freitas Veneroso

dc.contributor	Berthier Ribeiro de Araújo Neto
dc.contributor	http://lattes.cnpq.br/5461069167314414
dc.contributor	Adriano Alonso Veloso
dc.contributor	Renato Martins Assunção
dc.creator	Joao Mateus de Freitas Veneroso
dc.date.accessioned	2020-01-07T18:06:03Z
dc.date.accessioned	2022-10-03T22:36:40Z
dc.date.available	2020-01-07T18:06:03Z
dc.date.available	2022-10-03T22:36:40Z
dc.date.created	2020-01-07T18:06:03Z
dc.date.issued	2019-08-09
dc.identifier	http://hdl.handle.net/1843/31732
dc.identifier	https://orcid.org/0000-0001-5637-6654
dc.identifier.uri	http://repositorioslatinoamericanos.uchile.cl/handle/2250/3806514
dc.description.abstract	Métodos tradicionais de extração de informação na web normalmente utilizam regras rígidas para extrair dados relevantes de páginas da internet. Estes métodos são ade- quados para resolver tarefas de extração dentro de um mesmo website, mas eles são bem menos eficientes quando a tarefa compreende um conjunto heterogêneo de web- sites. Por outro lado, modelos de Reconhecimento de Entidades Nomeadas (NER) baseados em aprendizado de máquina oferecem uma alternativa mais flexível para re- solver o problema. No entanto, na maior parte das vezes, páginas HTML tem uma organização substancialmente diferente do texto em prosa, porque as frases são muito curtas, o que piora o desempenho dos modelos tradicionais de NER. Em contrapartida, a estrutura do HTML contém informação valiosa que pode ser utilizada para melhorar o desempenho dos modelos de NER. Nós propomos duas formas de utilizar esta infor- mação: a estratégia de auto-treinamento para Hidden Markov Models e o mecanismo de atenção para a Bi-LSTM-CRF, um tipo de rede neural. Além disso, nesta disser- tação, nós avaliamos o desempenho de diversos métodos de NER na tarefa de extração de informação na web. Em particular, introduzimos um dataset novo que consiste em páginas de departamentos de pesquisa extraídas dos sites de múltiplas universidades ao redor do mundo e testamos os modelos de NER na tarefa de extração de nomes de pesquisadores. Uma arquitetura de redes neurais que combina uma Bi-LSTM-CRF com representações de caracteres baseadas em LSTMs e o mecanismo rígido de atenção tem um desempenho superior aos demais métodos, alcançando um F1 de 90,2 na tarefa. Contudo, por meio da aplicação de estratégias como o auto-treinamento, conseguimos obter um modelo muito mais simples, o Hidden Markov Model de segunda ordem, que alcança um F1 de 87,9 na mesma tarefa.
dc.publisher	Universidade Federal de Minas Gerais
dc.publisher	Brasil
dc.publisher	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
dc.publisher	Programa de Pós-Graduação em Ciência da Computação
dc.publisher	UFMG
dc.rights	http://creativecommons.org/licenses/by/3.0/pt/
dc.rights	Acesso Aberto
dc.subject	Named entity recognition
dc.subject	Web data extraction
dc.subject	Researcher name extraction
dc.title	Named entity recognition on the Web
dc.type	Dissertação

Este ítem pertenece a la siguiente institución

Universidade Federal de Minas Gerais (Brasil)