Tesis
Uso da inteligência artificial para recuperação da informação com abordagem semântica: modelo de aplicação para documentos textuais em ambientes digitais
Fecha
2021-03-23Registro en:
33004110043P4
Autor
Santarém Segundo, José Eduardo [UNESP]
Universidade Estadual Paulista (Unesp)
Institución
Resumen
A quantidade de documentos digitais tem aumentado significativamente ultimamente e a necessidade de armazenamento e recuperação destes levou ao uso de sistemas computacionais como solução para acesso e disseminação da informação. A inteligência artificial, em suas variadas subáreas vem sendo pesquisada como aplicação para a evolução de diversos processos da ciência da informação e em especial para recuperação da informação. Uma das subáreas da inteligência artificial, o processamento de linguagem natural, tem tido repercussão nos ambientes de pesquisa como meio para melhoria dos processos de recuperação da informação nestes sistemas computacionais. Há um conjunto de discussões para melhorias das abordagens semânticas utilizando-se da inteligência artificial e suas tecnologias e técnicas para recuperação da informação e melhor aproveitamento para a sociedade dos conteúdos produzidos nestes sistemas computacionais. Este cenário contribuiu para o interesse em averiguar se modelos de aprendizado de máquina, em especial modelos neurais aplicados ao processamento de linguagem natural podem contribuir com a proposta de um modelo para recuperação da informação com abordagem semântica nestes sistemas computacionais. O objetivo geral deste trabalho está em ampliar a capacidade de Recuperação da Informação com abordagem semântica em ambientes digitais de documentos textuais, para que o usuário, em suas necessidades informacionais, possa expandir o acesso à informação contextual nestes ambientes. Para isso, foi criado um modelo para recuperação da informação com abordagem semântica utilizando técnicas de inteligência artificial em conjunto com processos e algoritmos do processamento de linguagem natural. Além disso, foi realizada pesquisa bibliográfica visando identificar quais as técnicas ligadas ao processo de recuperação da informação em sistemas computacionais utilizando inteligência artificial. A partir dos resultados desta pesquisa, foi realizada uma análise do processamento de linguagem natural usando inteligência artificial para recuperação da informação e foram usadas técnicas como incorporação de palavras, topic modeling e algoritmos como Word2Vec e Latent Dirichlet Allocation – LDA, que foram aplicados à proposta do modelo de forma integrada. Como resultado, esta tese apresenta a viabilidade do modelo proposto que ao utilizar das técnicas mencionadas de forma integrada e do processo de expansão contextual com o algoritmo Word2Vec possibilitará aos usuários um processo de recuperação da informação com abordagem semântica. The amount of digital documents has increased significantly lately and the need to store and retrieve them has led to the use of computer systems as a solution for accessing and disseminating information. Artificial intelligence, in its various sub-areas, has been researched as an application for the evolution of several information science processes and in particular for information retrieval. One of the subareas of artificial intelligence, natural language processing, has had repercussions in research environments as a means to improve the information retrieval processes in these computer systems. There is a set of discussions to improve semantic approaches using artificial intelligence and its technologies and techniques for information retrieval and better use for society of the content produced in these computer systems. This scenario contributed to the interest in investigating whether machine learning models, especially neural models applied to natural language processing can contribute to the proposal of a model for information retrieval with a semantic approach in these computer systems. The general objective of this work is to expand the capacity of Information Retrieval with a semantic approach in digital environments of textual documents, so that the user, in his informational needs, can expand access to contextual information in these environments. For this, a model for information retrieval with a semantic approach was created using artificial intelligence techniques in conjunction with natural language processing processes and algorithms. In addition, bibliographic research was carried out to identify which techniques are linked to the information retrieval process in computer systems using artificial intelligence. From the results of this research, an analysis of natural language processing using artificial intelligence for information retrieval was performed and techniques such as word incorporation, topic modeling and algorithms such as word2vec and Latent Dirichlet Allocation - LDA were used, which were applied to the proposal. of the model in an integrated way. As a result, this thesis presents the feasibility of the proposed model that by using the techniques mentioned in an integrated manner and the contextual expansion process with the word2vec algorithm will allow users to process information retrieval with a semantic approach.