dc.contributorHernández Peñaloza, José Tiberio
dc.contributorGuerra Gómez, John Alexis
dc.contributorNúñez Castro, Haydemar María
dc.contributorSarmiento Dueñas, Olga Lucía
dc.creatorPeña Lozano, Fabián Camilo
dc.date.accessioned2020-09-03T14:31:03Z
dc.date.available2020-09-03T14:31:03Z
dc.date.created2020-09-03T14:31:03Z
dc.date.issued2019
dc.identifierhttp://hdl.handle.net/1992/44047
dc.identifierinstname:Universidad de los Andes
dc.identifierreponame:Repositorio Institucional Séneca
dc.identifierrepourl:https://repositorio.uniandes.edu.co/
dc.description.abstractIn Exploratory Data Analysis (EDA), Machine Learning (ML) is an alternative for under-standing larger and high-dimensional data. Dimensionality Reduction (DR) algorithms suchas t-SNE produce two or three dimensional embeddings looking to preserve local and globalstructure of data. By the other hand, Clustering algorithms such as K-Means seek to achievea similar goal by producing a cluster membership for each data instance. In general terms,when using these kind of algorithms, non-expert ML users can derive wrong conclusions ifan appropriate set of hyper-parameters for fitting the algorithm is not selected. Similarly,groups of attributes and data instances could represent, for instance, high-levels of noise inthe data significantly affecting the embedding and clustering formation. To address this, ML-Explore.js, a web-based tool for exploring high-dimensional tabular data that implements thet-SNE and K-Means algorithms running in the browser is presented. Because this tool is tar-geted to domain-expert users, some concepts and recommendations for designing user-centricML systems are derived from the Interactive ML and Interpretable ML sub-fields. Like someother ML-based EDA tools, MLExplore.js allows users to explore the hyper-parameter spacewhile interactively seeing how these changes affect the model results. In addition, the abilityto evidence model changes when user perform attribute selection and data navigation is alsoincluded. This enables domain-expert users to perform cluster-oriented DR task sequencessuch as verify clusters, name clusters and match cluster and classes. To demonstrate its usage,one case study of exploring a real-world dataset is presented.
dc.description.abstractEn Análisis Exploratorio de Datos (EDA), Machine Learning (ML) es una alternativa para entender datasets grandes y de altas dimensiones. Los algoritmos de Reducción de Dimensionalidad (DR) como t-SNE producen dos o tres dimensiones agregadas buscando preservar la estructura local y global de los datos. Por otro lado, algoritmos de Clustering como K-Means buscan un objetivo similar al producir una pertenencia de una instancia a un cluster. En términos generales, cuando se usan este tipo de algoritmos, usuarios no expertos en ML pueden derivar conclusiones erroneas si un conjunto apropiado de hiper parámetros no es seleccionado. Similarmente, grupos de atributos e instancias de datos pueden representar, por ejemplo, altos niveles de ruido en los datos afectando significativamente la formación de las dimensiones agregadas y los clusters. Para direccionar esto, ML-Explore.js, una herramienta web para explorar datos de altas dimensiones mediante los algoritmos de t-SNE y K-Means corriendo el navegador es presentada. Dado que esta herramienta esta diseñada para usuarios que no son expertos en ML, algunos conceptos y recomendaciones para diseñar sistemas de ML centrados en el usuario son derivados del ML Interactivo y el ML Interpretable. Como algunas otras herramientas EDA basadas en ML, MLExplore.js permite al usuario explorar el espacio de hiper parámetros mientras interactivamente ve como esos cambios afectan los resultados del modelo. Adicionalmente, también se incluye la posibilidad de evidenciar cambios en el modelo cuando el usuario realiza selección de atributos y navega sobre los datos. Esto habilita a usuarios expertos en el dominio a realizar secuencias de tareas de DR orientadas a clusters como verificar clusters, nombrar clusters y hacer match de clusters y clases. Para demostrar su uso, un caso de estudio de exploración de un dataset real es presentado.
dc.languageeng
dc.publisherUniandes
dc.publisherMaestría en Ingeniería de Información
dc.publisherFacultad de Ingeniería
dc.publisherDepartamento de Ingeniería de Sistemas y Computación
dc.rightsAl consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://purl.org/coar/access_right/c_abf2
dc.sourceinstname:Universidad de los Andes
dc.sourcereponame:Repositorio Institucional Séneca
dc.titleMLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
dc.typeTrabajo de grado - Maestría


Este ítem pertenece a la siguiente institución