Dissertação
Representatividade dos atributos utilizados em modelos de aprendizagem de máquina no problema de seleção de otimizações para compiladores
Registro en:
CLAPPIS, Alan Melo. Representatividade dos atributos utilizados em modelos de aprendizagem de máquina no problema de seleção de otimizações para compiladores. 2020. 89 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2020, Maringá, PR.
Autor
Clappis, Alan Melo
Institución
Resumen
Orientador: Prof. Dr. Anderson Faustino da Silva Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2020 RESUMO: A seleção de otimizações é um dos problemas mais importantes para a área de compiladores, visto que é um dos principais pontos para a melhora de performance do código final. Diversas abordagens já foram propostas para mitigar esse problema; entre as mais proeminentes, as propostas de compilação iterativa. Contudo, a abordagem iterativa possui um processo moroso para obter bons resultados, o que impossibilita seu amplo uso. Por esse motivo, surgiram propostas envolvendo aprendizagem de máquina, de forma que vários algoritmos de aprendizado já foram avaliados. Entretanto, ainda não existe um consenso de quais são os melhores atributos para representar um programa. Por essa razão, este trabalho avalia a qualidade dos atributos utilizados em modelos de aprendizagem nesse contexto. Mais especificamente, o presente estudo compara a qualidade da representação estática MILEPOST e da representação dinâmica MICA, quando aplicadas em dois espaços de otimizações reduzidos. A assertividade resultante da aplicação dos algoritmos de aprendizagem foi insatisfatória, visto que um modelo base, que classificasse as entradas de acordo com a classe majoritária, atingiria uma assertividade próxima aos índices apresentados pelos algoritmos. Mesmo com os resultados negativos, foi possível ponderar que a representação dinâmica possui uma maior representatividade que a estática. Posteriormente, foi realizada uma comparação entre o tempo de execução das predições dos modelos e o tempo de execução do nível de otimização -O3. Essa avaliação apresentou uma redução de 7,17\% em relação ao nível -O3, para uma combinação das predições dos modelos. Também foi realizada uma avaliação da capacidade de predição do tamanho dos binários, na qual a representação MILEPOST se demonstrou mais eficiente. Ademais, é realizado um experimento quanto à capacidade de agrupamento dos programas. Esses resultados, por sua vez, indicam que os atributos avaliados podem ser úteis para outros fins, como a clusterização das classes de programas, visto que é possível realizar uma clara divisão entre os benchmarks cBench e PolyBench. Por fim, este trabalho constrói um repositório de programas integrado com a ferramenta CK. Com isso, futuras pesquisas serão facilitadas quanto ao processo moroso de execução dos programas e da extração dos atributos. ABSTRACT: The optimizations selection is one of the most important problems in the compiler area, since it's one of the main points for improving the performance of the final code. Several approaches have already been proposed to mitigate this problem; among the most prominent, the iterative compilation proposals. However, the iterative approach has a lengthy process to find good results, which makes impossible its wide use. For this reason, proposals involving machine learning have emerged, so that several learning algorithms have already been evaluated. However, there is still no consensus on what are the best attributes to represent a program. For this reason, this work evaluates the quality of the attributes used in learning models in this context. More specifically, the present study compares the quality of the MILEPOST static representation and the MICA dynamic representation, when applied in two reduced optimization spaces. The assertiveness resulting from the use of the learning algorithms was unsatisfactory, since a base model, which classifies the inputs according to the majority class, would achieve an assertiveness close to the presented by the algorithms. Even with negative results, it was possible to consider that the dynamic representation has a greater representativeness than the static one. Subsequently, there's a comparison between the execution time of the model predictions and the execution time of the optimization level -O3. This evaluation showed a reduction of 7.17 \% in relation to the -O3 level for a combination of the predictions of the models. An evaluation of the capacity to predict the size of the binaries was also carried out, in which the MILEPOST representation proved to be more efficient. In addition, an experiment is carried out as to the ability to group programs. These results, on the other hand, indicate that the evaluated attributes can be useful for other purposes, such as the clustering of program classes, since it's possible to achieve a clear division between the cBench and PolyBench benchmarks. Finally, this work builds a program repository integrated with the CK tool. Thus, future researchs will be facilitated regarding the time-consuming process of executing programs and extracting attributes. 89 f. : il. color., figs, tabs.