Interpretabilidade

Interpretabilidade Mecanicista e Transparência

Por Que Interpretabilidade?

*onfiança:*Entender POR QUE o modelo dá uma resposta, não só O QUE ele responde
*linhamento:*Detectar comportamentos problemáticos antes que se manifestem
*ebugging:*Localizar onde erros surgem no processamento
*iência:*Entender o que os modelos de fato "aprenderam" sobre o mundo

Mechanistic Interpretability (Mech Interp)

Subcampo que tenta *ngenharia reversa*de redes neurais — descobrir os algoritmos implementados pelos pesos.

Pioneiros

*nthropic:*Maior equipe de mech interp; Chris Olah fundou o campo
*eepMind:*Equipe dedicada; trabalho em ativações e representações
*IT CSAIL:*Descobertas sobre circuitos e features (breakthrough 2026)

Conceitos Fundamentais

Features (Representações)

*ipótese:*Redes neurais representam conceitos como direções no espaço de ativação
*eature = direção*no espaço de ativação que ativa para um conceito específico
*inear representation hypothesis:*Conceitos são representados linearmente (soma de vetores)

Superposition

*roblema:*Redes com N neurônios representam muito mais de N features (sobreposição)
*ecanismo:*Features dividem neurônios — cada neurônio responde a múltiplas features
*oy model:*"Toy Models of Superposition" (Elhage et al., Anthropic, 2022) demonstrou isso formalmente

Circuits

*onceito:*Subgrafos de pesos que implementam algoritmos computacionais específicos
*xemplo:*"Induction heads" — mecanismo de cópia em contexto descoberto em todos os Transformers
*ocalização:*Quais atenção heads e MLPs são responsáveis por qual comportamento?

Sparse Autoencoders (SAEs)

A técnica mais importante atualmente para extrair features interpretáveis.

Como Funciona

Treina autoencoder com ativação *sparsa*sobre ativações do modelo
O encoder extrai features (muitas — mais que neurônios)
Cada feature corresponde a um conceito interpretável

Anthropic — "Scaling and Evaluating SAEs" (2024)

*rXiv:*2408.05147
*scala:*SAEs com 1M+ features em Claude 3 Sonnet
*esultado:*Descobriram features para: Barack Obama, embrião, câncer, violência, criptografia...
*Brain microscope":*Cada feature tem um interpretador automático via LLM

Gemma Scope 2 (Google, 2025)

*ançamento:*2025
*scala:*SAEs para Gemma 2 2B, 9B, 27B — pesos públicos
*eatures:*16K a 1M features por camada
*pen-source:*Pesos de SAE disponíveis no HuggingFace
*so:*Pesquisa da comunidade sobre interpretabilidade

EleutherAI — SAE para Pythia / GPT-NeoX

Reprodução de técnicas de SAE em modelos menores e totalmente open

Discoveries em Circuits

Induction Heads (Anthropic, 2022)

*rXiv:*2209.11895
*escoberta:*Mecanismo de "cópia de padrão" que emerge em qualquer Transformer de 2+ camadas
*unção:*[A][B]...[A] → prediz [B]; base do in-context learning

Indirect Object Identification Circuit (MIT, 2022)

*rXiv:*2211.00593
*xemplo:*"When Mary and John went to the store, John gave a drink to" → Mary
*esultado:*Circuito de 26 atenção heads identificado com funções específicas

Factual Associations (MIT, 2022)

*OME paper:*arXiv:2202.05262
*chado:*Fatos são armazenados em camadas MLP específicas (medial layers)
*mplicação:*"Edição" cirúrgica de fatos no modelo (model editing)

Model Editing

Modificar fatos específicos no modelo sem re-treino.

ROME — Rank-One Model Editing

*rXiv:*2202.05262
*ecanismo:*Identifica e modifica diretamente as entradas MLP que armazenam o fato

MEMIT — Mass-Editing Memory in a Transformer

*rXiv:*2210.07229
*scala:*Edita milhares de fatos de uma vez

WISE / GRACE

Abordagens alternativas com "armazenamento externo" de edições

Probing

Técnica mais simples: treinar um classificador linear sobre ativações para detectar conceitos.

*onceito:*Se um probe linear consegue prever X a partir de ativação Y, então Y representa X linearmente
*so:*Verificar se modelos têm representação de verdade/falsidade, sentimento, etc.
*imitação:*Probe funcionar não prova que o modelo usa essa informação

Attention Analysis

BertViz / TransformerLens

*ertViz:*Visualização de attention patterns (bertviz.org)
*ransformerLens:*Toolkit de Mech Interp (Neel Nanda, Anthropic/DeepMind)
- URL: github.comneelnanda-ioTransformerLens
- Features: hooks para ativações, logit lens, attention patterns

MIT Breakthrough 2026

*núncio:*MIT CSAIL, março 2026
*IT Tech Review:*Eleito uma das "10 Breakthrough Technologies 2026"
*escoberta:*Mapeamento de "conceitos de alto nível" para circuitos específicos em Transformers grandes (70B+)
*étodo:*SAEs + ablation studies automatizados em escala
*esultado:*Primeiro mapeamento causal confirmado (não apenas correlacional) entre conceito e circuito
*mplicação:*Permite "switch off" comportamentos específicos cirurgicamente

Vetores de Emoção em Claude (Anthropic, 2026)

*escoberta:*Pesquisadores identificaram 12 vetores de emoção distintos nas ativações internas de Claude
*moções mapeadas:*Happy, Hostile, Afraid, Blissful, e mais 8 estados afetivos
*étodo:*Probing linear + análise de steering em ativações residual stream
*mplicação:*Modelos de linguagem desenvolvem representações internas que se comportam funcionalmente como emoções — não metáfora, mas estrutura computacional real
*autela:*Existência de representação ≠ "sentir" emoções — debate filosófico em aberto

Ferramentas e Recursos

Ferramenta	Uso	Link
TransformerLens	Mech interp em GPT-2/Pythia	github.comneelnanda-ioTransformerLens
Neuronpedia	Database de features/neurons	neuronpedia.org
Gemma Scope	SAEs para Gemma 2	huggingface.cogooglegemma-scope
SAEBench	Benchmark de SAEs	github.comEleutherAIsae-evals
PySvelte	Visualização de ativações	Anthropic (interno)

Limitações Atuais

*scala:*Técnicas funcionam bem em GPT-2 (124M); muito mais difícil em 70B+
*ompletude:*SAEs capturam features mas não todo o comportamento
*ausalidade:*Correlação ≠ causação; muitas descobertas são correlacionais
*omposicionalidade:*Features individualmente interpretáveis ≠ raciocínio interpretável

Relevância para o Kode

*ebug de comportamentos:*Se Kode recusa código legítimo ou aceita código malicioso, mech interp pode localizar o erro
*onfiança:*Para uso em ambientes críticos, interpretabilidade é requisito
*ecomendação:*Integrar TransformerLens em pipeline de avaliação; monitorar Gemma Scope e Anthropic releases para técnicas aplicáveis