Arquiteturas de Redes Neurais para CLEVRER

Gabriel Santos Luz

Redes neurais necessitam de muitos mais exemplos que humanos para aprender. No artigo “On the Binding Problem in Artificial Neural Networks” os autores teorizam que no cerne dessa diferença está o binding problem e solucioná-lo criaria modelos mais próximos da eficiência humana de aprendizado. O conjunto de dados CLEVRER permite isolar e estudar os componentes principais desse problema. Ele é composto por vídeos curtos de colisões de formas geométricas em 3D acompanhados por perguntas de raciocínio causal. Este trabalho propõe e avalia arquiteturas de redes neurais para resolver o problema de binding em tarefas de visão computacional aplicadas ao conjunto de dados CLEVRER. Inicialmente, o algoritmo base foi reimplementado, combinando MONet, para extração de objetos, e uma Transformer, para raciocínio temporal. Modificações foram propostas para otimizar a segregação de objetos utilizando informações temporais, como a adoção da arquitetura SlowFast. Além disso, redes MAC (Memory, Attention, and Composition) foram implementadas para raciocínio visual, explorando diferentes abordagens de integração temporal e espacial dos frames de vídeo. Os resultados demonstraram que, embora as modificações nas arquiteturas tenham levado a melhorias no desempenho em questões descritivas e preditivas, desafios ainda permanecem em questões contrafactuais, especialmente no que diz respeito ao aprendizado não supervisionado de representações temporais. O estudo conclui que abordagens que integram simultaneamente atenção temporal e espacial, como a combinação de redes MAC e Transformers, são promissoras para resolver o problema de binding em vídeos.

2020/2 - POC2

Orientador: Douglas Guimarães Macharet

Palavras-chave: aprendizado de máquina, redes neurais, visão computacional, raciocínio

Link para vídeo

PDF Disponível