Aprendizado Profundo Multimodal Aplicado a Sinais de Fala para Classificação e Regressão de Níveis de Depressão
Abstract
This work presents the development of a multimodal deep learning system aiming to predict depression from audio and textual data extracted from clinical interviews. The project began with the validation of facial emotion recognition models, which achieved accuracies of up to 84%. Subsequently, we developed models for depression prediction alongside topic-based data augmentation techniques. Our main contribution is a multimodal model that achieved an F1-Score of 83.04% in the binary classification task (depressed vs. non-depressed). For the more complex task of predicting PHQ-8 severity scores, the model obtained a Mean Absolute Error (MAE) of 4.99, a result that is competitive with the state-of-the-art. By effectively fusing multiple data modalities, this research validates a robust approach for the automatic detection of depression, offering a significant contribution to objective mental health diagnostics.
Resumo
Este trabalho apresenta o desenvolvimento de um sistema de aprendizado profundo multimodal para a predição de depressão a partir de dados de áudio e texto extraídos de entrevistas clínicas. O projeto iniciou-se com a validação de modelos de reconhecimento de emoções faciais, que alcançaram acurácias de até 84%. Posteriormente desenvolvemos modelos para a predição de depressão junto à técnicas de aumento de dados baseada em tópicos. Nossa principal contribuição é um modelo multimodal que alcançou um F1-Score de 83,04% na tarefa de classificação binária (depressivo vs. não depressivo). Para a tarefa mais complexa de predição dos escores de severidade do PHQ-8, o modelo obteve um Erro Absoluto Médio (MAE) de 4,99, resultado competitivo com o estado da arte. Ao fundir eficazmente múltiplas modalidades de dados, esta pesquisa valida uma abordagem robusta para a detecção automática de depressão, oferecendo uma contribuição significativa para o diagnóstico objetivo em saúde mental.
2025/1 - MSI2
Orientador: George Teodoro
Palavras-chave: Predição de depressão, aprendizado profundo multimodal, dataset DAIC, reconhecimento de emoções faciais, análise de voz, análise textual, diagnóstico em saúde mental, detecção automática de depressão, Transformers, Convolutional Neural Network
Link para vídeo
PDF Disponível