Classificação Binária de Textos Abusivos e Mitigação de Viés Utilizando Aprendizado Profundo
O uso crescente de plataformas digitais, como redes sociais e fóruns online, tem proporcionado avanços significativos na comunicação global. Entretanto, esse ambiente também tem facilitado a disseminação de conteúdos abusivos, como discursos de ódio, ameaças e insultos, que impactam negativamente a experiência dos usuários e podem gerar danos psicológicos e sociais consideráveis. A detecção automatizada de conteúdo abusivo em textos surge como uma solução promissora para auxiliar na moderação desses ambientes e promover interações mais seguras e saudáveis.
A identificação de conteúdos abusivos em textos é um desafio complexo devido à subjetividade inerente ao que é considerado ofensivo ou abusivo, à variedade de contextos culturais e linguísticos e ao uso de linguagem ambígua, sarcástica ou codificada. A abordagem manual para a moderação desses conteúdos, embora eficaz em situações específicas, é inviável em larga escala devido ao volume massivo de dados gerados diariamente. Assim, a detecção automatizada de conteúdo abusivo por meio de modelos de aprendizado de máquina tem se tornado uma ferramenta indispensável para plataformas digitais que buscam garantir interações seguras e inclusivas.
Soluções modernas de detecção geralmente utilizam técnicas avançadas de Processamento de Linguagem Natural combinadas com modelos de aprendizado profundo, como transformadores e modelos de linguagem de grande escala, que demonstram desempenho e eficiência superiores na análise e classificação de textos complexos. Contudo, o desenvolvimento desses sistemas enfrenta diversos desafios técnicos, incluindo o balanceamento de classes no conjunto de dados, a necessidade de generalização para múltiplos contextos e idiomas, e a mitigação de vieses algorítmicos que podem prejudicar determinados grupos.
Diante dessa problemática, este trabalho implementa um modelo de detecção automatizada de conteúdo abusivo em textos, analisa a presença de vieses algorítmicos e avalia diferentes variações do modelo com respeito à presença de viés. Apesar de conseguir devidamente identificar conteúdos abusivos, o modelo apresenta vieses indesejados, especialmente em relação a termos associados a grupos demográficos discriminados. Esses vieses podem levar a classificações incorretas, onde comentários neutros ou positivos contendo esses termos são erroneamente marcados como tóxicos, perpetuando estereótipos e prejudicando a experiência de usuários pertencentes a esses grupos.
Para avaliar e mitigar esses vieses, o trabalho propõe uma metodologia baseada na utilização de um conjunto de dados de validação balanceado, com um número igual de exemplos tóxicos e não tóxicos para diferentes termos identitários. Essa abordagem permite medir o viés algorítmico e comparar diferentes técnicas, identificando as abordagens que oferecem melhor desempenho na detecção de conteúdo abusivo, enquanto minimizam vieses de forma eficaz.
2025/1 - POC2
Orientador: Fabrício Benevenuto de Souza
Palavras-chave: Machine Learning, Aprendizado Profundo, Classificação de Textos
Link para vídeo
PDF Disponível