Interpretabilidade
Interpretabilidade Mecanicista e Transparência
Por Que Interpretabilidade?
- *onfiança:*Entender POR QUE o modelo dá uma resposta, não só O QUE ele responde
- *linhamento:*Detectar comportamentos problemáticos antes que se manifestem
- *ebugging:*Localizar onde erros surgem no processamento
- *iência:*Entender o que os modelos de fato "aprenderam" sobre o mundo
Mechanistic Interpretability (Mech Interp)
Subcampo que tenta *ngenharia reversa*de redes neurais — descobrir os algoritmos implementados pelos pesos.
Pioneiros
- *nthropic:*Maior equipe de mech interp; Chris Olah fundou o campo
- *eepMind:*Equipe dedicada; trabalho em ativações e representações
- *IT CSAIL:*Descobertas sobre circuitos e features (breakthrough 2026)
Conceitos Fundamentais
Features (Representações)
- *ipótese:*Redes neurais representam conceitos como direções no espaço de ativação
- *eature = direção*no espaço de ativação que ativa para um conceito específico
- *inear representation hypothesis:*Conceitos são representados linearmente (soma de vetores)
Superposition
- *roblema:*Redes com N neurônios representam muito mais de N features (sobreposição)
- *ecanismo:*Features dividem neurônios — cada neurônio responde a múltiplas features
- *oy model:*"Toy Models of Superposition" (Elhage et al., Anthropic, 2022) demonstrou isso formalmente
Circuits
- *onceito:*Subgrafos de pesos que implementam algoritmos computacionais específicos
- *xemplo:*"Induction heads" — mecanismo de cópia em contexto descoberto em todos os Transformers
- *ocalização:*Quais atenção heads e MLPs são responsáveis por qual comportamento?
Sparse Autoencoders (SAEs)
A técnica mais importante atualmente para extrair features interpretáveis.
Como Funciona
- Treina autoencoder com ativação *sparsa*sobre ativações do modelo
- O encoder extrai features (muitas — mais que neurônios)
- Cada feature corresponde a um conceito interpretável
Anthropic — "Scaling and Evaluating SAEs" (2024)
- *rXiv:*2408.05147
- *scala:*SAEs com 1M+ features em Claude 3 Sonnet
- *esultado:*Descobriram features para: Barack Obama, embrião, câncer, violência, criptografia...
- *Brain microscope":*Cada feature tem um interpretador automático via LLM
Gemma Scope 2 (Google, 2025)
- *ançamento:*2025
- *scala:*SAEs para Gemma 2 2B, 9B, 27B — pesos públicos
- *eatures:*16K a 1M features por camada
- *pen-source:*Pesos de SAE disponíveis no HuggingFace
- *so:*Pesquisa da comunidade sobre interpretabilidade
EleutherAI — SAE para Pythia / GPT-NeoX
- Reprodução de técnicas de SAE em modelos menores e totalmente open
Discoveries em Circuits
Induction Heads (Anthropic, 2022)
- *rXiv:*2209.11895
- *escoberta:*Mecanismo de "cópia de padrão" que emerge em qualquer Transformer de 2+ camadas
- *unção:*[A][B]...[A] → prediz [B]; base do in-context learning
Indirect Object Identification Circuit (MIT, 2022)
- *rXiv:*2211.00593
- *xemplo:*"When Mary and John went to the store, John gave a drink to" → Mary
- *esultado:*Circuito de 26 atenção heads identificado com funções específicas
Factual Associations (MIT, 2022)
- *OME paper:*arXiv:2202.05262
- *chado:*Fatos são armazenados em camadas MLP específicas (medial layers)
- *mplicação:*"Edição" cirúrgica de fatos no modelo (model editing)
Model Editing
Modificar fatos específicos no modelo sem re-treino.
ROME — Rank-One Model Editing
- *rXiv:*2202.05262
- *ecanismo:*Identifica e modifica diretamente as entradas MLP que armazenam o fato
MEMIT — Mass-Editing Memory in a Transformer
- *rXiv:*2210.07229
- *scala:*Edita milhares de fatos de uma vez
WISE / GRACE
- Abordagens alternativas com "armazenamento externo" de edições
Probing
Técnica mais simples: treinar um classificador linear sobre ativações para detectar conceitos.
- *onceito:*Se um probe linear consegue prever X a partir de ativação Y, então Y representa X linearmente
- *so:*Verificar se modelos têm representação de verdade/falsidade, sentimento, etc.
- *imitação:*Probe funcionar não prova que o modelo usa essa informação
Attention Analysis
BertViz / TransformerLens
- *ertViz:*Visualização de attention patterns (bertviz.org)
- *ransformerLens:*Toolkit de Mech Interp (Neel Nanda, Anthropic/DeepMind)
- URL: github.comneelnanda-ioTransformerLens
- Features: hooks para ativações, logit lens, attention patterns
MIT Breakthrough 2026
- *núncio:*MIT CSAIL, março 2026
- *IT Tech Review:*Eleito uma das "10 Breakthrough Technologies 2026"
- *escoberta:*Mapeamento de "conceitos de alto nível" para circuitos específicos em Transformers grandes (70B+)
- *étodo:*SAEs + ablation studies automatizados em escala
- *esultado:*Primeiro mapeamento causal confirmado (não apenas correlacional) entre conceito e circuito
- *mplicação:*Permite "switch off" comportamentos específicos cirurgicamente
Vetores de Emoção em Claude (Anthropic, 2026)
- *escoberta:*Pesquisadores identificaram 12 vetores de emoção distintos nas ativações internas de Claude
- *moções mapeadas:*Happy, Hostile, Afraid, Blissful, e mais 8 estados afetivos
- *étodo:*Probing linear + análise de steering em ativações residual stream
- *mplicação:*Modelos de linguagem desenvolvem representações internas que se comportam funcionalmente como emoções — não metáfora, mas estrutura computacional real
- *autela:*Existência de representação ≠ "sentir" emoções — debate filosófico em aberto
Ferramentas e Recursos
| Ferramenta | Uso | Link |
|---|---|---|
| TransformerLens | Mech interp em GPT-2/Pythia | github.comneelnanda-ioTransformerLens |
| Neuronpedia | Database de features/neurons | neuronpedia.org |
| Gemma Scope | SAEs para Gemma 2 | huggingface.cogooglegemma-scope |
| SAEBench | Benchmark de SAEs | github.comEleutherAIsae-evals |
| PySvelte | Visualização de ativações | Anthropic (interno) |
Limitações Atuais
- *scala:*Técnicas funcionam bem em GPT-2 (124M); muito mais difícil em 70B+
- *ompletude:*SAEs capturam features mas não todo o comportamento
- *ausalidade:*Correlação ≠ causação; muitas descobertas são correlacionais
- *omposicionalidade:*Features individualmente interpretáveis ≠ raciocínio interpretável
Relevância para o Kode
- *ebug de comportamentos:*Se Kode recusa código legítimo ou aceita código malicioso, mech interp pode localizar o erro
- *onfiança:*Para uso em ambientes críticos, interpretabilidade é requisito
- *ecomendação:*Integrar TransformerLens em pipeline de avaliação; monitorar Gemma Scope e Anthropic releases para técnicas aplicáveis