Sistemas de estimação visual-temporal de biossinais e assinaturas de movimento em vídeos para interação humano-robô

Souza, João Marcelo Silva

Campo DC

Valor

Idioma

dc.creator

Souza, João Marcelo Silva

dc.date.accessioned

2025-05-15T22:20:09Z

dc.date.available

2025-05-15T22:20:09Z

dc.date.issued

2025-03

dc.identifier.uri

https://repositorio.ufba.br/handle/ri/42029

dc.description.abstract

In Human-Robot Interaction (HRI), the visual estimation of biosignals over time is essential for extracting human features, interpreting behaviors, and providing various forms of cyber-physical feedback and stimuli. In this context, Facial Expression Recognition (FER) systems have been developed to automate the computational analysis of human behavior, a process which requires meticulous observation and complex and integrated processing of spatiotemporal correlations. However, current FER systems and datasets predominantly explore spatial, static, or instantaneous aspects, which limits investigations of facial muscle deformations and motion over time in real-world situations. To overcome this limitation, this work proposes an alternative approach to the conventional image domain, connecting the visual representation of points of interest to temporal descriptors. To achieve this, the points are tracked over time, normalized spatiotemporally, and converted into metrics that generate motion signatures represented through multivariate time series. This work presents: the proposed methodology, termed Visual-Temporal FER (VT-FER), along with its corresponding framework; 22 standardized face measurements based on the principles of Facial Action Coding System (FACS); the pipeline architecture for computational systems; and a new dataset, the Facial Biosignals Time-Series (FBioT), comprising more than 21,000 seconds of real-world footage collected in uncontrolled environments from public sources. The prototype results validated the temporal hypotheses of the proposed approach, achieving accuracy levels compatible with benchmarks from the scientific community: 94% accuracy in the neural network trained with the Extended Cohn-Kanade (CK+) dataset reference data for emotion detection in controlled environments, and 72% for arousal detection in uncontrolled environments, using the Acted Facial Expressions In The Wild - Valence and Arousal (AFEW-VA) dataset as reference. Additionally, the FBioT dataset enabled the exploration of the methodology’s potential in the development of neural networks, reaching 80% accuracy in the visual-temporal detection of emotions during conversations, and 88% in visual word identification from mouth movement analysis over time.

pt_BR

dc.language

por

pt_BR

dc.publisher

Universidade Federal da Bahia

pt_BR

dc.rights

Acesso Aberto

pt_BR

dc.subject

biossinais

pt_BR

dc.subject

visual-temporal

pt_BR

dc.subject

expressões faciais

pt_BR

dc.subject

normalização espaço-temporal

pt_BR

dc.subject

séries temporais

pt_BR

dc.subject.other

biosignals

pt_BR

dc.subject.other

visual-temporal

pt_BR

dc.subject.other

facial expressions

pt_BR

dc.subject.other

spatiotemporal normalization

pt_BR

dc.subject.other

time series

pt_BR

dc.title

Sistemas de estimação visual-temporal de biossinais e assinaturas de movimento em vídeos para interação humano-robô

pt_BR

dc.title.alternative

Spatiotemporal estimation systems of biosignals and motion signatures in videos for human-robot interaction

pt_BR

dc.type

Tese

pt_BR

dc.publisher.program

Programa de Pós-Graduação em Engenharia Elétrica (PPGEE)

pt_BR

dc.publisher.initials

UFBA

pt_BR

dc.publisher.country

Brasil

pt_BR

dc.subject.cnpq

CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::INSTRUMENTACAO ELETRONICA

pt_BR

dc.subject.cnpq

CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::ARQUITETURA DE SISTEMAS DE COMPUTACAO

pt_BR

dc.contributor.advisor1

Cerqueira, Jés de Jesus Fiais

dc.contributor.advisor1ID

https://orcid.org/0000-0003-4072-0101

pt_BR

dc.contributor.advisor1Lattes

http://lattes.cnpq.br/3099827700882478

pt_BR

dc.contributor.advisor-co1

Oliveira, Wagner Luiz Alves de

dc.contributor.advisor-co1ID

https://orcid.org/0000-0003-1784-2661

pt_BR

dc.contributor.advisor-co1Lattes

http://lattes.cnpq.br/7355315368234452

pt_BR

dc.contributor.referee1

Fernandes Júnior, Antônio Carlos Lopes

dc.contributor.referee1ID

https://orcid.org/0000-0001-6361-7049

pt_BR

dc.contributor.referee1Lattes

http://lattes.cnpq.br/2586671440653430

pt_BR

dc.contributor.referee2

Simas Filho, Eduardo Furtado de

dc.contributor.referee2ID

https://orcid.org/0000-0001-8707-785X

pt_BR

dc.contributor.referee2Lattes

http://lattes.cnpq.br/6012321412801915

pt_BR

dc.contributor.referee3

Santos Júnior, Fernando Alberto Correia dos

dc.contributor.referee3ID

https://orcid.org/0000-0003-0394-056X

pt_BR

dc.contributor.referee3Lattes

http://lattes.cnpq.br/3135778309945334

pt_BR

dc.contributor.referee4

Melo, Thamiles Rodrigues de

dc.contributor.referee4ID

https://orcid.org/0000-0002-2367-9533

pt_BR

dc.contributor.referee4Lattes

http://lattes.cnpq.br/2065109080658475

pt_BR

dc.contributor.referee5

Oliveira, Wagner Luiz Alves de

dc.contributor.referee5ID

https://orcid.org/0000-0003-1784-2661

pt_BR

dc.contributor.referee5Lattes

http://lattes.cnpq.br/7355315368234452

pt_BR

dc.creator.ID

https://orcid.org/0009-0001-5562-5337

pt_BR

dc.creator.Lattes

http://lattes.cnpq.br/1431973892971280

pt_BR

dc.description.resumo

Na Interação Humano-Robô (IHR), a estimação visual de biossinais ao longo do tempo é fundamental para a extração de características humanas, a interpretação de comportamentos e o fornecimento de feedback e estímulos ciberfísicos diversos. Nesse contexto, sistemas de Facial Expression Recognition (FER) vêm sendo desenvolvidos para automatizar a análise computacional do comportamento humano, um processo que exige observação minuciosa e tratamento complexo de correlações espaço-temporais de forma integrada. Apesar dos avanços, os sistemas e datasets de FER ainda priorizam informações espaciais e instantâneas, o que limita a exploração das alterações musculares faciais e dos movimentos contínuos em situações do mundo real. Para superar essa limitação, este trabalho propõe uma abordagem alternativa ao domínio convencional de imagens, conectando a representação visual de pontos de interesse a descritores temporais. Para isso, os pontos são referenciados ao longo do tempo, normalizados de forma espaço-temporal e transformados em medidas que geram assinaturas de movimento representadas por meio de séries temporais multivariadas. Este trabalho apresenta: a proposta de metodologia denominada Visual-Temporal FER (VT-FER) e seu respectivo framework; as 22 medidas da face padronizadas baseadas nos fundamentos do Facial Action Coding System (FACS); a arquitetura do pipeline para sistemas computacionais; e um novo dataset, o Facial Biosignals Time-Series (FBioT), composto por mais de 21 mil segundos de vídeos de situações reais, gerados em ambiente não controlado e oriundos de bases públicas. Os resultados dos protótipos permitiram validar as hipóteses temporais da proposta, atingindo patamares de acurácia compatíveis com benchmarks da comunidade científica: 94% na rede neural treinada com dados de referência do dataset Extended Cohn-Kanade (CK+) para detecção de emoções em ambiente controlado; e 72% para detecção de arousal em ambiente não controlado, com base na referência Acted Facial Expressions In The Wild – Valence and Arousal (AFEW-VA). Além disso, com o dataset FBioT foi possível explorar o potencial da metodologia no desenvolvimento de redes neurais, atingindo 80% de acurácia na detecção visual-temporal de emoções embutidas em conversação e 88% na identificação visual de palavras a partir da observação temporal da boca.

pt_BR

dc.publisher.department

Escola Politécnica

pt_BR

dc.relation.references

SOUZA, João Marcelo Silva Souza. Sistemas de estimação visual-temporal de biossinais e assinaturas de movimento em vídeos para interação humano-robô. 2025. Tese (Doutorado em Engenharia Elétrica) - Programa de Pós-Graduação em Egenharia Elétrica. Universidade Federal da Bahia, Salvador, 2025.

pt_BR

dc.type.degree

Doutorado

pt_BR

Aparece nas coleções:

Tese (PPGEE)

Arquivo

Descrição

Tamanho

Formato

Joao Marcelo. Tese doutorado.pdf

Tese Versao Final Joao Marcelo Silva Souza PPGEE

6,19 MB

Adobe PDF

Visualizar/Abrir

Sistema Universitário de Bibliotecas UFBA
Rua Barão de Jeremoabo, s/n, Campus Ondina, Salvador-BA, CEP: 40170-290