bachelorThesis
Classificação e rastreamento de itens em uma esteira móvel utilizando redes convolucionais e processamento de imagens
Classification and tracking of items on a moving conveyor belt using convolutional networks and image processing
Registro en:
GÓES, Angelo Leite Medeiros de. Classificação e rastreamento de itens em uma esteira móvel
utilizando redes convolucionais e processamento de imagens. 2022. 93 f. Trabalho de
Conclusão de Curso (Graduação em Engenharia de Computação e Automação), Departamento de Engenharia de Computação e Automação, Universidade Federal do Rio Grande do Norte, Natal, 2022.
Autor
Góes, Angelo Leite Medeiros de
Resumen
Given the prosperity of the modern world, there is a growing need to reduce the time
spent on trivial chores. In the context of buying groceries, recent studies point out that one
of the most relevant factors on the buyer’s experience, that reflects on sales and revenue,
is the time spent in queues. The work in question aims to describe the creation of a
computer vision and deep learning prototype, to be installed next to a camera suspended
on a mobile supermarket conveyor belt. It will be responsible for detecting, classifying,
tracking and counting of all passing items. The video stream is processed in real time,
and upon detecting the passage of a specific item, the final purchase bill is increased. As
there would be no human interference, the process tends to simplify, make cheaper and
speed up supermarket checkouts. Among the technologies explored is “state of the art”
convolutional neural networks (CNN), especially YOLO v4 tiny and YOLO v5 small, as
well as some more consolidated ones such as OpenCV for image processing or Roboflow
for database augmentation. At the end of the experiment, it was possible to develop
a model that had up to 77% of average precision (mAP@[0.5:0.95]) for two items on a
treadmill, using a model trained in a hybrid dataset, composed of images collected in vitro
and images generated through a simulator, in addition to a graphical interface responsible
for viewing the processed video feed, which also allows manipulation of hyperparameters
from the CNN, tracker and item counter. Dada a gradual prosperidade do mundo moderno, vê-se uma crescente necessidade na
redução do tempo gasto com atividades triviais. No contexto de idas aos supermercados,
estudos recentes apontam que um dos fatores mais relevantes na experiência de compra,
que reflete nas vendas e faturamento, é o tempo gasto nas filas. O trabalho em questão
visa descrever a criação de um protótipo de visão computacional e deep learning, a ser
instalado junto a uma câmera suspensa sobre uma esteira móvel de supermercado. Este
será responsável por detectar, classificar, rastrear o movimento e contar todos os itens que
passam. O stream de vídeo é processado em tempo real, e ao detectar a passagem de um
item específico a conta final da compra é incrementada. Como não haveria interferência
humana, o processo tende a simplificar, baratear e agilizar caixas de supermercado. Dentre as tecnologias exploradas está a de redes neurais convolucionais “estado da arte”, em
especial a You Only Look Once (YOLO) v4 tiny e a YOLO v5 small, bem como algumas
mais consolidadas no mercado como OpenCV para o processamento de imagens ou Roboflow para expansão da base de dados. Ao final do experimento foi possível desenvolver um
modelo que contava com até 77% de precisão média (mAP@[0.5:0.95]) para dois itens em
uma esteira, usando um modelo treinado em um dataset híbrido, composto de imagens
coletadas in vitro e imagens geradas por meio de um simulador, além disso uma interface
gráfica responsável pela visualização do feed de video processado, que possibilita também
manipulação de hiperparâmetros da CNN, do rastreador e do contador de itens.