Speaker diarization in video content based on facial expression analysis via supervised machine learning

dc.contributorSilva, Geraldo Zimbrão da
dc.contributorSouza, Jano Moreira de
dc.contributorAlmeida, Heraldo Luís Silveira de
dc.creatorBasilio, Renan Fasolato
dc.date2022-08-05T21:53:24Z
dc.date2023-09-27T03:03:52Z
dc.date2020-08
dc.date.accessioned2023-09-27T13:46:53Z
dc.date.available2023-09-27T13:46:53Z
dc.identifierhttp://hdl.handle.net/11422/18244
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/8913626
dc.descriptionEste trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.
dc.languagepor
dc.publisherUniversidade Federal do Rio de Janeiro
dc.publisherBrasil
dc.publisherEscola Politécnica
dc.publisherUFRJ
dc.rightsAcesso Aberto
dc.subjectAprendizado Supervisionado
dc.subjectAprendizado de Máquina
dc.subjectDiarização de Locutor
dc.subjectCNPQ::ENGENHARIAS
dc.titleDiarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
dc.titleSpeaker diarization in video content based on facial expression analysis via supervised machine learning
dc.typeTrabalho de conclusão de graduação


Este ítem pertenece a la siguiente institución