Imputação de Dados via Programação Genética: Uma Estratégia de Ensemble
A presença de dados ausentes é um problema presente em tarefas de mineração de dados e aprendizado de máquina, podendo introduzir vieses significativos e comprometer o desempenho de modelos preditivos. Embora existam diversas técnicas de imputação, desde substituições estatísticas simples até modelagens multivariadas complexas, muitas falham em capturar as especificidades de cada atributo ou em modelar relações não-lineares complexas entre as variáveis. Este trabalho propõe o GP-Imputer, uma abordagem evolutiva baseada em Programação Genética (GP) que opera sob uma estratégia de ensemble. Diferentemente de métodos que geram valores diretamente, o GP-Imputer evolui funções de combinação não-linear ótimas a partir das saídas de imputadores base consolidados (Média, Mediana, KNN, MICE e SVD). O método adota uma representação multi-tree para tratar a dimensionalidade dos dados e utiliza uma abordagem orientada a tarefa final, onde a aptidão dos indivíduos é guiada pelo F1-Score de um classificador (Regressão Logística). A validação experimental, conduzida em cinco conjuntos de dados de referência sob mecanismo de ausência MCAR com taxas de 10\% a 30\%, demonstrou a superioridade do método proposto. O GP-Imputer obteve o melhor desempenho médio em 14 dos 15 cenários avaliados, apresentando ganhos estatisticamente significativos frente aos métodos do estado da arte, especialmente em contextos de alta dimensionalidade e escassez de informações
2025/2 - POC2
Orientador: Gisele Lobo Pappa
Palavras-chave: Imputação de Dados, Programação Genética, Ensemble de Imputadores, Dados Ausentes, Computação Evolutiva, Classificação.
PDF Disponível