Imputação de Dados via Programação Genética: Uma Estratégia de Ensemble

Giovana Assis da Matta Machado

A presença de dados ausentes é um problema presente em tarefas de mineração de dados e aprendizado de máquina, podendo introduzir vieses significativos e comprometer o desempenho de modelos preditivos. Embora existam diversas técnicas de imputação, desde substituições estatísticas simples até modelagens multivariadas complexas, muitas falham em capturar as especificidades de cada atributo ou em modelar relações não-lineares complexas entre as variáveis. Este trabalho propõe o GP-Imputer, uma abordagem evolutiva baseada em Programação Genética (GP) que opera sob uma estratégia de ensemble. Diferentemente de métodos que geram valores diretamente, o GP-Imputer evolui funções de combinação não-linear ótimas a partir das saídas de imputadores base consolidados (Média, Mediana, KNN, MICE e SVD). O método adota uma representação multi-tree para tratar a dimensionalidade dos dados e utiliza uma abordagem orientada a tarefa final, onde a aptidão dos indivíduos é guiada pelo F1-Score de um classificador (Regressão Logística). A validação experimental, conduzida em cinco conjuntos de dados de referência sob mecanismo de ausência MCAR com taxas de 10\% a 30\%, demonstrou a superioridade do método proposto. O GP-Imputer obteve o melhor desempenho médio em 14 dos 15 cenários avaliados, apresentando ganhos estatisticamente significativos frente aos métodos do estado da arte, especialmente em contextos de alta dimensionalidade e escassez de informações


2025/2 - POC2

Orientador: Gisele Lobo Pappa

Palavras-chave: Imputação de Dados, Programação Genética, Ensemble de Imputadores, Dados Ausentes, Computação Evolutiva, Classificação.

PDF Disponível