Animação de Mãos como Controle de Cadeias Cinemáticas via Aprendizado por Reforço

Marcelo Augusto Salomão Ganem

Este trabalho apresenta uma investigação de técnicas de reward shaping e curriculum learning no contexto de aprendizado por reforço para o controle puramente cinemático de uma mão, sem a necessidade de dados anotados ou aprendizado explícito da dinâmica do ambiente. Modelamos o problema como um Processo de Decisão de Markov em que a política, parametrizada por uma rede neural, gera diretamente as variações angulares das juntas da mão para tocar pontosalvo posicionados aleatoriamente sobre um objeto. A função de recompensa é composta por três termos contínuos e diferenciáveis: contato, colisões e limites articulares, ponderados de forma a priorizar o estabelecimento de contato estável antes de refinar aproximações e penalizar movimentos inválidos. Aplicamos Proximal Policy Optimization (PPO) com respeito à função de recompensa, obtendo políticas capazes de realizar (em pelo menos 50% dos cenários apresentados) contatos precisos, respeitando limites anatômicos, com movimentações pouco sujeitas a jitter e orientações imprevisíveis. Demonstramos que o reward shaping e o curriculum learning melhoram a estabilidade e a eficiência do aprendizado, embora a alta dimensionalidade ainda imponha desafios de generalização.


2025/2 - MSI2

Orientador: Luiz Chaimowicz

Palavras-chave: reward shaping, reinforcement learning, animation, kinematics

PDF Disponível