Trabajo de grado - Maestría
Tadava : visual analytics architecture for large table-based datasets
Fecha
2018Registro en:
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
Autor
Ortiz Román, Juan Camilo
Institución
Resumen
Visual Analytics provide the user with tools to process data in a very intuitive way. One of the challenges Visual Analytics faces nowadays is the need to represent big amounts of information in a way that the user can explore. This large amount of data can not be managed by conventional machines and must be partitioned or underrepresented. Usually, visual analytics applications or widgets work with one single machine due to the requirements of low latency and quick interactions. This article presents Tadava, a visual analytics architecture based on representative sampling for large table-based datasets. Datasets samples are generated using systematics sampling and random sampling in order to obtain a collection of data from the original dataset. Experiments are made to determine the best sampling method to be used in datasets of different sizes, varying the step expected between samples. Tadava is built as a backend architecture for Navio, an interactive visualization widget for summarizing, exploring and navigating large datasets, and provides the widget with the capacity to manage table-based datasets between 400MB and 4GB. "La analítica visual le provee al usuario herramientas de procesamiento de datos de forma intuitiva. Actualmente, uno de los desafíos que enfrenta la Analítica Visual es la necesidad de representar un gran volumen de información de manera tal que el usuario pueda explorarla. Es gran cantidad de datos no puede ser manejada por máquinas convencionales y debe ser partida o subrepresentada. Normalmente, las aplicaciones de analítica visual trabajan con una única máquina debido a los requerimientos de baja latencia e interacción rápida. Este artículo presenta Tadava, una arquitectura para analítica visual basada en un muestreo representativo sobre un gran volumen de datos tabulares. Muestreos de un de conjunto de datos son generados utilizando técnicas estadísticas de muestreo sistemático y aleatorio para obtener un subconjunto de los datos originales. Se realizan experimentos para determinar la mejor estrategia de muestreo a utilizar sobre conjuntos de datos de diferentes tamaños, variando el paso esperado entre muestras. Tadava es construida como una arquietctura backend para Navio, un widget interactivo de visualización para explorar, navegar y resumir grandes conjuntos de datos. Tadava provee la capacidad de manejar datos tabulares entre 400 MB y 4 GB."--Tomado del Formato de Documento de Grado.