Tesis
Métodos de agrupamento baseados em informações de ranqueamento
Fecha
2021-08-26Registro en:
33004153073P2
Autor
Pedronette, Daniel Carlos Guimarães [UNESP]
Universidade Estadual Paulista (Unesp)
Institución
Resumen
As contantes evoluções tecnológicas realizadas nas últimas décadas, nos mais diversos domínios do conhecimento, possibilitaram a produção de volume massivo de dados e grande parcela deste volume é armazenada de maneira digital. Neste cenário, há uma grande demanda por métodos de aprendizado de máquina que consigam realizar análise de dados de forma automática para diferentes tarefas. Porém, a criação de rótulos de treinamento exige grande esforço humano, sendo escassos, inexatos ou até mesmo indisponíveis em diversas áreas de aplicação. Visando sobrepor esta dificuldade, métodos de aprendizado semi-supervisionado, auto-supervisionado e não-supervisionado utilizam as informações disponíveis de maneiras únicas, visando aprender a partir de poucos ou nenhum rótulo. As técnicas de agrupamento são importantes métodos não-supervisionados que buscam separar um conjunto de dados em agrupamentos disjuntos, a partir da análise da similaridade ou distância entre seus elementos. Esta categoria de algoritmos é amplamente aplicada em diversas áreas do reconhecimento de padrões e novos métodos são propostos constantemente, demonstrando a demanda para novas abordagens. De maneira análoga, as técnicas de manifold learning são métodos não-supervisionados que exploram a estrutura dos dados visando obter melhores relações de similaridade entre os elementos. Apesar de possuírem objetivos similares, métodos de agrupamento que exploram técnicas de manifold learning não são comuns na literatura. Neste trabalho, duas técnicas de manifold learning foram aplicadas para criação de métodos de agrupamento com a utilização de grafos, componentes conexas, hipergrafos e redes neurais baseados em grafos. As metodologias propostas foram avaliadas em uma variedade de conjuntos de dados e comparadas com métodos clássicos e recentes da literatura. Além disso, análises visuais foram exploradas para ilustrar os efeitos das abordagens de manifold learning utilizadas. Os resultados obtidos são promissores, sendo comparáveis ou superiores em todos os cenários avaliados. The constant technological evolutions from the last decade, on the most diverse knowledge fields, enabled the production of massive amounts of information, from which most is stored in digital format. In this scenario, the demand for machine learning methods which can automatically perform data analysis on different task has grown. However, the creation of labels required for training those methods requires huge human effort, being scarce, inaccurate or even unavailable in several application areas. Aiming to surpass this challenge, semi-supervised, auto-supervised and unsupervised methods exploits the available information from unique perspectives while attempting to learn from few or no labels from the input data. Clustering techniques are important unsupervised methods that seek to separate a set of data into disjoint groups, based on the analysis of the similarity or distance between its elements. Additionally, clustering algorithms are widely applied in several areas of pattern recognition and novel methods are constantly proposed, demonstrating the demand for new approaches. In a similar approach, manifold learning techniques are unsupervised techniques that explore the data structure in order to obtain better similarity relationships between elements. However, despite having similar objectives, clustering methods that explore manifold learning techniques are not common in the literature. In this work, two manifold learning techniques were applied to create clustering methods using graphs, connected components, hypergraphs and graph-based neural networks. The proposed methodologies were evaluated on a variety of datasets and compared with classical and novel methods from the literature. Furthermore, visual analyzes were explored to illustrate the effects of the chosen manifold learning approaches. The results obtained are promising, being comparable or superior in all evaluated scenarios.