Aplicação do Modelo CSTA para Identificação de Momentos Relevantes em Vídeos do YouTube
O consumo de vídeos digitais cresceu muito nos últimos anos, especialmente com a popularidade de plataformas como TikTok e Instagram Reels. Com a diversidade e a quantidade de conteúdo disponível na internet, identificar momentos relevantes de um vídeo pode auxiliar no aprimoramento da experiência do usuário, na criação de novos conteúdos e no acesso à informação de forma eficiente.
A relevância de um trecho de vídeo pode ser definida por diversos fatores, incluindo o comportamento dos espectadores, como a repetição de certas partes, que revela informações contextuais valiosos sobre o que atrai ou engaja o público. Esse tipo de informação permite análises que não beneficiam apenas os criadores de conteúdo, mas também ajudam as plataformas a oferecer experiências mais personalizadas e cativantes.
Além das análises comportamentais, o incômodo psicoacústico e outras características perceptíveis aos humanos trazem uma nova dimensão para identificar momentos de maior impacto emocional ou atenção em vídeos. O trabalho feito por Araujo por exemplo, foi pioneiro ao usar o incômodo psicoacústico como pseudo-rótulo para treinar modelos de sumarização, mas essa ideia ainda é pouco explorada na literatura. Isso abre um espaço interessante para criar metodologias que combinam percepções humanas com técnicas avançadas de aprendizado de máquina, especialmente quando temos poucos dados rotulados disponíveis.
Além disso, a sumarização de vídeo é uma área bastante consolidada quando o assunto é resumo de vídeos. Ferramentas desenvolvidas para essa tarefa buscam gerar, a partir de um vídeo de longa duração, um conteúdo de menor duração que represente bem as informações contidas no conteúdo original. Essa capacidade de síntese as torna ferramentas promissoras para tarefas relacionadas à identificação de momentos de destaque, especialmente em contextos onde as métricas de importância variam de forma temporal, como no comportamento de reprodução em plataformas digitais. Essa é uma área inexplorada na literatura, abrindo espaço para estudos pioneiros no campo de highlight detection.
Neste estudo, propomos investigar a eficácia do modelo de sumarização de vídeo CSTA para a tarefa de detecção de highlights. Além disso, utilizamos o incômodo psicoacústico como pseudo-rótulo para treinamento auto-supervisionado, ampliando as possibilidades de análise e reduzindo a dependência de anotações manuais. Como parte do experimento, desenvolvemos uma versão reduzida do dataset Mr.HiSum , composta por vídeos do YouTube, projetada para avaliar a viabilidade e a eficácia das metodologias propostas.
Ao validar nossa abordagem, esperamos contribuir para o avanço na área de detecção de highlights em vídeos, fornecendo uma visão diferente do tema, mostrando a possobilidade de utilizar modelos de sumarização para uma tarefa distinta, bem como utilizar características psicoacústicas como ferramenta para melhorias dos modelos atuais.
2024/2 - POC2
Orientador: Erickson Rangel do Nascimento
Palavras-chave: Sumarização de vídeo, Highlight de detection, Video summarization
Link para vídeo
PDF Disponível