Interpretabilidade em Grandes Modelos de Linguagem

Mariana Assis Ramos

A consolidação dos Grandes Modelos de Linguagem (LLMs), exemplificada pelo GPT-4 e Gemini 3, ampliou drasticamente a capacidade da IA, mas agravou proporcionalmente o problema da “caixa-preta”. Embora a macroestrutura de modelos autorregressivos seja conhecida, os mecanismos algorítmicos internos permanecem opacos devido a fenômenos emergentes como a polissemia neural e a superposição. A literatura atual fragmenta-se entre paradigmas de treinamento (fine-tuning vs. prompting) ou limita-se à dicotomia clássica de acesso aos parâmetros (black-box vs. white-box). Tais abordagens mostram-se insuficientes para capturar a profundidade cognitiva e o propósito epistêmico das novas metodologias.

Este trabalho sistematiza o estado da arte ao propor uma Taxonomia Multidimensional estruturada em dois eixos: (1) Nível de Abstração Cognitiva, distinguindo métodos Computacionais, Representacionais e Mecanicistas; e (2) Propósito Epistêmico, diferenciando abordagens Descritivas, Causais, Intervencionais e Verificáveis. Sob esta ótica, reavaliamos métodos como Sparse Autoencoders e Induction Heads, demonstrando a aplicabilidade da taxonomia através de um estudo de caso na plataforma Neuronpedia. Os resultados indicam uma transição da área para uma ciência intervencionista, complementar à engenharia de representações, focada não apenas em descrever, mas em controlar o comportamento do modelo.


2025/2 - MSI2

Orientador: Gisele Lobo Pappa

Palavras-chave: Grandes Modelos de Linguagem; Interpretabilidade Mecanicista; Taxonomia; Engenharia de Representação; Explainable AI.

PDF Disponível