Tese (Doutorado)
Impactos da representação e da sumarização de grafos de conhecimentos em sistemas de recomendação
Fecha
2021Autor
Sacenti, Juarez Angelo Piazza
Institución
Resumen
Um problema clássico que frequentemente compromete a qualidade de Sistemas de Recomendação (SRs) é a esparsidade de dados sobre as interações dos usuários com os itens a serem recomendados. A representação de conhecimento acerca dos usuários e dos itens (p.ex., no domínio do filmes, atores, diretores e gêneros), também chamado de informações laterais, por meio de ontologias e Grafos de Conhecimento (GCs) se mostrou eficaz para contornar esse problema. No entanto, o crescimento das informações laterais em termos de volume e complexidade dá origem a muitos desafios, incluindo a demanda por algoritmos de alto custo para lidar com grandes quantidades de dados. Enquanto isso, embora a Sumarização de Grafo (SG) tenha se tornado popular para dar suporte às tarefas de visualização e consulta de GC, seu uso ainda é relativamente inexplorado no domínio de SRs. Esta tese investiga os impactos da representação e sumarização do conhecimento em SRs, tanto a nível de eficácia como de eficiência. A eficácia neste contexto está relacionada à qualidade das recomendações geradas, e eficiência, por sua vez, está relacionada ao custo computacional. Mais especificamente, esta tese investiga duas abordagens para mitigar o problema do alto custo de treinamento de modelos de recomendação baseados em informações laterais. A primeira abordagem converte a representação das informações laterais baseada em ontologia numa matriz de preferência, eliminando a necessidade do uso de algoritmos de alto custo computacional baseados em inferências em ontologias ou na estrutura de rede de informação. Esta abordagem é aplicável a SRs baseados em filtragem híbrida clássica para considerar as informações laterais no processo de recomendação. Para definir melhor esta técnica de conversão, esta tese propõe um arcabouço conceitual, chamado de ORBS, que permite especificar a representação ontológica descrevendo os diferentes aspectos (características) dos itens e as hierarquias de entidades que ordenam e descrevem estes aspectos. Neste arcabouço, o conhecimento é representado usando ontologias de diferentes níveis de abstração, diferenciando conceitos relacionados à tarefa de recomendação, ao domínio do item e à aplicação. A segunda abordagem foca os SRs baseados em GCs (SRGCs), onde é proposto a sumarização do GC utilizando uma técnica que combina embeddings com clusterização de nodos para reduzir o volume das informações laterais. Esta técnica adota duas estratégias de sumarização: a única-visão, que sumariza o GC como um todo, e a multi-visão, que separa o GC em múltiplas visões, sumariza cada visão e, então, unifica-as em um único sumário de GC. Estas visões são subgrafos do GC contendo entidades relacionadas a um determinado aspecto de item. Os experimentos desta tese analisaram as duas abordagens propostas usando os dados do MovieLens 1M e informações laterais de Movie Ontology, IMDb e DBpedia. Os resultados demonstram que a especificação de múltiplos aspectos e hierarquias têm o potencial de melhorar a eficácia de SRs. Além disso, experimentos subsequentes avaliam o impacto das duas estratégias da técnica de sumarização de GC na eficiência e eficácia de quatro SRGCs. Os resultados mostram que a sumarização proposta pode melhorar a eficiência do SRs sem mudar significativamente a eficácia. Abstract: A classic problem that often compromises the quality of Recommender Systems (RSs) is the sparsity of data about user interactions with the items to be recommended. The representation of knowledge about users and items (e.g., in film domain, actors, directors, and genres), also called lateral information, through ontologies and Knowledge Graphs (KGs), has proven effective to circumvent this problem. However, the growth of lateral information in terms of volume and complexity gives rise to many challenges, including the demand for costly algorithms to handle large amounts of data. Meanwhile, although Graph Summary (GS) has become popular to support KG visualization and query tasks, its use is still relatively unexplored in the recommendation domain. This thesis investigates the impacts of knowledge representation and summarization in recommendation systems, both in terms of effectiveness and efficiency. The effectiveness in this context is related to the quality of the generated recommendations, and efficiency, in turn, is the computational cost. Specifically, this thesis investigates two approaches to mitigate the high cost of training recommendation models based on lateral information. The first approach converts the representation of ontology-based RSs into a preference matrix, removing the need of using high computational cost algorithms based on ontology inference or the structure of information network. This approach is applicable to RSs based on classical hybrid filtering to consider the lateral information not the recommendation process. To better define this mapping technique, this thesis proposes a conceptual framework, called ORBS, which allows specifying the ontological representation describing the different aspects (characteristics) of items and the hierarchies of entities that order and describe these aspects. In this framework, knowledge is represented using ontologies of different levels of abstraction, differentiating concepts related to the recommendation task, item domain and application. The second approach focuses on KG-based RSs, where the KG summarization is proposed using a technique that combines embeddings with node clustering to reduce the volume of lateral information. This method takes two strategies: single-view, which summarizes the KG as a whole, and multi-view, which separates the KG into multiple views, summarizes each view, and then unifies them into a single KG summary. In this context, views are subgraphs of the KG containing entities related to a particular item aspect. The experiments in this thesis analyzed the two proposed approaches using data from MovieLens 1M and side information from Movie Ontology, IMDb and DBpedia. The results demonstrate that specifying multiple aspects and hierarchies has the potential to improve the effectiveness of RSs. Furthermore, subsequent experiments assess the impact of the two KG summarization technique strategies on the efficiency and effectiveness of four KG-based RSs. The results show that the proposed summarization can improve the efficiency of RSs without significantly changing the effectiveness.