Dissertação
Análise de imagem e aprendizagem de máquina na avaliação da qualidade de sementes de arroz
Image analysis and machine learning in the evaluation of rice seed quality
Registro en:
GARCIA CUADRADO, Johan Bernardo. Análise de imagem e aprendizagem de máquina na avaliação da qualidade de sementes de arroz. 2020. 56 f. Dissertação (Mestrado em Fitotecnia) - Universidade Federal de Viçosa, Viçosa. 2020.
Autor
Garcia Cuadrado, Johan Bernardo
Institución
Resumen
O Brasil é o maior produtor e consumidor de arroz fora do continente asiático, com crescente demanda anual na produção, o que aumenta também a necessidade de lotes de sementes de alta qualidade para a implantação da cultura. Para um eficiente controle da qualidade dos lotes a serem comercializados é importante disponibilizar para as empresas métodos de baixo custo e fácil execução que permitam obter informações seguras e rápidas de cada lote produzido. Neste contexto, destacam-se as análises automatizadas de imagens de sementes e de plântulas, que permitem obter informações sobre o potencial fisiológico das sementes, e métodos avançados capazes de auxiliar na identificação de misturas varietais. Diante disso, objetivou-se: i) avaliar a eficiência dos softwares SAPL ® e ILASTIK na detecção de diferenças no potencial fisiológico de lotes de sementes de arroz; ii) propor um método rápido e não-destrutivo para auxiliar na identificação de cultivares arroz com uso de sistema de visão computacional combinado com algoritmos de aprendizagem de máquina. Foram conduzidos dois experimentos no Laboratório de Sementes do DAA/UFV, em delineamento inteiramente casualisado com quatro repetições. No experimento 1, foram utilizadas sementes de quatro lotes da cultivar F- 2000, 6 lotes da cultivar Caçula, 6 lotes da cultivar Relâmpago, caraterizados incialmente pelos testes de germinação, primeira contagem de germinação, envelhecimento acelerado, teste de frio, índice de velocidade de emergência e índice de velocidade de emissão de radícula. Com o software SAPL ® foram obtidos os parâmetros comprimento total de plântula, raiz e parte aérea, índice de vigor e índice de uniformidade determinados aos 4 e 5 dias após o início do teste. Já com o software ILASTIK, realizou-se a classificação das plântulas quanto ao vigor obtendo-se os parâmetros número de plântulas vigorosas e número de plântulas fracas. Os dados foram submetidos à análise de variância realizada separadamente para cada cultivar e as médias obtidas foram comparadas pelo teste de Tukey a 5% de probabilidade. Os dados obtidos em cada teste foram também submetidos à análise de correlação de Pearson. No experimento 2, foram utilizadas sementes de oito cultivares arroz e sementes de arroz vermelho e arroz preto provindas de amostras de lotes comerciais. As imagens das sementes foram adquiridas e processadas com auxílio do equipamento GroundEye ® , obtendo depois da segmentação das regiões de interesse nas imagens, 312 variáveis de cor, textura e geometria de cada semente. Para a análise dos dados, foi realizada estatística multivariada com a análise de componentes principais (PCA). Foram utilizados os algoritmos Linear Discriminant Analysis (LDA) e Support Vector Machine - Radial (SVM-R) para a criação dos modelos de classificação, avaliados com base na matriz de confusão para os cálculos das métricas acurácia, Kappa, sensitividade, especificidade e acurácia balanceada. Concluiu-se que os softwares SAPL ® e ILASTIK foram eficientes para a avaliação do potencial fisiológico de sementes de arroz, apresentando resultados correlacionados com os obtidos nos demais testes de vigor utilizados. Os parâmetros obtidos por meio da classificação das imagens geradas por ambos os sistemas computadorizados podem ser utilizados nos programas de controle de qualidade de sementes de arroz. Verificou-se também que os modelos desenvolvidos mostraram alto desempenho na identificação de cultivares arroz, principalmente com uso das características de cor e textura das imagens, obtendo-se acurácia de 78% e 80% com os algoritmos LDA e SVM-R, respectivamente. Esta alta precisão mostrou que os métodos de visão computacional com algoritmos de aprendizagem de máquina têm potencial para serem usados na identificação de sementes de cultivares de arroz. Palavras-chave: Oryza sativa L. Qualidade fisiológica. Automatização. Brazil is the largest producer and consumer of rice outside the Asian continent, with growing annual demand in production, which also increases the need for high quality seed lots for the implantation of the crop. For an efficient quality control of the lots to be sold it is important to make available to companies low cost and easy execution methods that allow to obtain safe and fast information of each lot produced. In this context, we highlight the automated analysis of images of seeds and seedlings that allow obtaining information about the physiological potential of seeds and also advanced methods capable of assisting in the identification of varietal mixtures. Therefore, the objective was to: i) evaluate the efficiency of the SAPL® and ILASTIK software in detecting differences in the physiological potential of rice seed lots; ii) to propose a fast and non-destructive method to assist in the identification of rice cultivars using a computer vision system combined with machine learning algorithms. Two experiments were conducted at the Seed Laboratory at DAA / UFV, in a completely randomized design with four replications. In experiment 1, seeds from four lots of cultivar F-2000 were used, 6 lots of cultivar Caçula 6 lots of cultivar Relâmpago, initially characterized by germination tests, first germination count, accelerated aging, cold test, speed index of emergency and radicle emission speed index. With the SAPL® software, the parameters of total length of seedling, root and shoot, vigor index and uniformity index determined at 4 and 5 days after sowing were obtained. With the ILASTIK software, seedlings were classified according to their vigor, obtaining the parameters number of vigorous plants and number of weak plants. The data were subjected to analysis of variance performed separately for each cultivar and the averages obtained compared by the Tukey test at 5%. The data obtained in each test were also submitted to Pearson's correlation analysis. In experiment 2, seeds from eight rice cultivars and seeds of red rice and black rice from commercial batch samples were used. The images of the seeds were acquired and processed with the aid of the Groundeye® equipment, obtaining after segmentation of the regions of interest in the images, 312 color, texture and geometry variables for each seed. For data analysis, multivariate statistics was performed with principal component analysis (PCA). Linear Discriminant Analysis (LDA) and Support Vector Machine - Radial (SVM-R) algorithms were used to create the classification models, evaluated based on the confusion matrix for calculating the metrics accuracy, Kappa, sensitivity, specificity and balanced accuracy. It was concluded that the software SAPL® and ILASTIK were efficient for the evaluation of the physiological potential of rice seeds, corroborating the results obtained in the other vigor tests used. The parameters obtained by classifying the images generated by both computerized systems can be used in rice seed quality control programs. It was also found that the developed models showed high performance in the identification of rice cultivars, mainly using the color and texture characteristics of the images, obtaining accuracy of 78% and 80% with the LDA and SVM-R algorithms, respectively. This high precision showed that computer vision methods with machine learning algorithms have the potential to be used in the identification of rice cultivar seeds. Keywords: Oryza sativa L. Physiological quality. Automation.