Tesis
Abordagens interativas para exploração de coleções de documentos
Fecha
2020-02-07Registro en:
000929186
33004153073P2
Autor
Eler, Danilo Medeiros [UNESP]
Universidade Estadual Paulista (Unesp)
Institución
Resumen
Os dados textuais têm desempenhado um papel cada vez mais importante em várias tarefas analíticas em pesquisas acadêmicas, inteligência de negócios, monitoramento de mídias sociais, jornalismo e outras áreas. A fim de explorar e dar sentido a esses dados, várias técnicas de visualização de textos surgiram nos últimos anos. Técnicas de visualizações, neste contexto, visam permitir que usuários possam explorar as relações entre documentos, descobrir documentos de interesse ou analisar padrões contidos nos documentos. Nessa forma de análise, um documento é comumente modelado por seu conteúdo subjacente e pelo conjunto de palavras que o compõe. Geralmente, técnicas de projeção multidimensional são empregadas para projetar esses documentos no espaço 2D, porém o usuário precisa ler cada documento para entender a geração dos agrupamentos e também existem problemas quanto a sobreposição de marcadores quando o número de documentos cresce. Neste trabalho são apresentadas duas propostas de elaboração de abordagens para exploração de coleções de documentos, em que o objetivo é reduzir o esforço cognitivo necessário para explorar o conjunto de documentos comparado com representações comuns de projeções multidimensionais. A primeira é uma abordagem híbrida, que mostra o relacionamento e o conteúdo do documento em uma única visualização, utilizando “mapas de documentos” e tag clouds. A segunda é uma abordagem hierárquica, que utiliza tag clouds para preencher as texturas de agrupamentos formados por meio do domínio de Voronoi para codificar visualmente as fronteiras dos grupos de documentos. Mostramos a eficácia das abordagens propostas na exploração de coleções de documentos, fornecendo explorações em que o usuário recebe poucas informações durante o processo exploratório e detalha o conteúdo de acordo com a demanda, superando problemas de identificação de agrupamentos e sobreposição de marcadores. Textual data has played an increasingly important role in various analytical tasks in academic research, business intelligence, social media monitoring, journalism, and other fields. In order to explore and make sense of this data, various text visualization techniques have emerged in recent years. Visualization techniques, in this context, are intended to enable users to explore relationships between documents, discover documents of interest, or analyze patterns contained in documents. In this form of analysis, a document is commonly shaped by its underlying content and the set of words that compose it. Multidimensional projection techniques are often employed to project these documents into the 2D space, but you need to read each document to understand the generation of collations, and there are also problems with overlapping markers as the number of documents grows. This paper presents two proposals for developing approaches for exploring document collections, in which the objective is to reduce the cognitive effort required to explore the set of documents compared to common representations of multidimensional projections. The first is a hybrid approach, which shows the relationship and content of the document in a single view using “document maps” and tag clouds. The second is a hierarchical approach that uses tag clouds to fill in the textures of groupings formed through the Voronoi domain to visually encode the boundaries of document groups. We show the effectiveness of the proposed approaches in exploring document collections by providing explorations where the user receives little information during the exploratory process and details the content according to demand, overcoming cluster identification and marker overlap issues.