Interpretabilidade

Interpretabilidade Mecanicista e Transparência

Por Que Interpretabilidade?

  • *onfiança:*Entender POR QUE o modelo dá uma resposta, não só O QUE ele responde
  • *linhamento:*Detectar comportamentos problemáticos antes que se manifestem
  • *ebugging:*Localizar onde erros surgem no processamento
  • *iência:*Entender o que os modelos de fato "aprenderam" sobre o mundo

Mechanistic Interpretability (Mech Interp)

Subcampo que tenta *ngenharia reversa*de redes neurais — descobrir os algoritmos implementados pelos pesos.

Pioneiros

  • *nthropic:*Maior equipe de mech interp; Chris Olah fundou o campo
  • *eepMind:*Equipe dedicada; trabalho em ativações e representações
  • *IT CSAIL:*Descobertas sobre circuitos e features (breakthrough 2026)

Conceitos Fundamentais

Features (Representações)

  • *ipótese:*Redes neurais representam conceitos como direções no espaço de ativação
  • *eature = direção*no espaço de ativação que ativa para um conceito específico
  • *inear representation hypothesis:*Conceitos são representados linearmente (soma de vetores)

Superposition

  • *roblema:*Redes com N neurônios representam muito mais de N features (sobreposição)
  • *ecanismo:*Features dividem neurônios — cada neurônio responde a múltiplas features
  • *oy model:*"Toy Models of Superposition" (Elhage et al., Anthropic, 2022) demonstrou isso formalmente

Circuits

  • *onceito:*Subgrafos de pesos que implementam algoritmos computacionais específicos
  • *xemplo:*"Induction heads" — mecanismo de cópia em contexto descoberto em todos os Transformers
  • *ocalização:*Quais atenção heads e MLPs são responsáveis por qual comportamento?

Sparse Autoencoders (SAEs)

A técnica mais importante atualmente para extrair features interpretáveis.

Como Funciona

  1. Treina autoencoder com ativação *sparsa*sobre ativações do modelo
  2. O encoder extrai features (muitas — mais que neurônios)
  3. Cada feature corresponde a um conceito interpretável

Anthropic — "Scaling and Evaluating SAEs" (2024)

  • *rXiv:*2408.05147
  • *scala:*SAEs com 1M+ features em Claude 3 Sonnet
  • *esultado:*Descobriram features para: Barack Obama, embrião, câncer, violência, criptografia...
  • *Brain microscope":*Cada feature tem um interpretador automático via LLM

Gemma Scope 2 (Google, 2025)

  • *ançamento:*2025
  • *scala:*SAEs para Gemma 2 2B, 9B, 27B — pesos públicos
  • *eatures:*16K a 1M features por camada
  • *pen-source:*Pesos de SAE disponíveis no HuggingFace
  • *so:*Pesquisa da comunidade sobre interpretabilidade

EleutherAI — SAE para Pythia / GPT-NeoX

  • Reprodução de técnicas de SAE em modelos menores e totalmente open

Discoveries em Circuits

Induction Heads (Anthropic, 2022)

  • *rXiv:*2209.11895
  • *escoberta:*Mecanismo de "cópia de padrão" que emerge em qualquer Transformer de 2+ camadas
  • *unção:*[A][B]...[A] → prediz [B]; base do in-context learning

Indirect Object Identification Circuit (MIT, 2022)

  • *rXiv:*2211.00593
  • *xemplo:*"When Mary and John went to the store, John gave a drink to" → Mary
  • *esultado:*Circuito de 26 atenção heads identificado com funções específicas

Factual Associations (MIT, 2022)

  • *OME paper:*arXiv:2202.05262
  • *chado:*Fatos são armazenados em camadas MLP específicas (medial layers)
  • *mplicação:*"Edição" cirúrgica de fatos no modelo (model editing)

Model Editing

Modificar fatos específicos no modelo sem re-treino.

ROME — Rank-One Model Editing

  • *rXiv:*2202.05262
  • *ecanismo:*Identifica e modifica diretamente as entradas MLP que armazenam o fato

MEMIT — Mass-Editing Memory in a Transformer

  • *rXiv:*2210.07229
  • *scala:*Edita milhares de fatos de uma vez

WISE / GRACE

  • Abordagens alternativas com "armazenamento externo" de edições

Probing

Técnica mais simples: treinar um classificador linear sobre ativações para detectar conceitos.

  • *onceito:*Se um probe linear consegue prever X a partir de ativação Y, então Y representa X linearmente
  • *so:*Verificar se modelos têm representação de verdade/falsidade, sentimento, etc.
  • *imitação:*Probe funcionar não prova que o modelo usa essa informação

Attention Analysis

BertViz / TransformerLens

  • *ertViz:*Visualização de attention patterns (bertviz.org)
  • *ransformerLens:*Toolkit de Mech Interp (Neel Nanda, Anthropic/DeepMind)
    • URL: github.comneelnanda-ioTransformerLens
    • Features: hooks para ativações, logit lens, attention patterns

MIT Breakthrough 2026

  • *núncio:*MIT CSAIL, março 2026
  • *IT Tech Review:*Eleito uma das "10 Breakthrough Technologies 2026"
  • *escoberta:*Mapeamento de "conceitos de alto nível" para circuitos específicos em Transformers grandes (70B+)
  • *étodo:*SAEs + ablation studies automatizados em escala
  • *esultado:*Primeiro mapeamento causal confirmado (não apenas correlacional) entre conceito e circuito
  • *mplicação:*Permite "switch off" comportamentos específicos cirurgicamente

Vetores de Emoção em Claude (Anthropic, 2026)

  • *escoberta:*Pesquisadores identificaram 12 vetores de emoção distintos nas ativações internas de Claude
  • *moções mapeadas:*Happy, Hostile, Afraid, Blissful, e mais 8 estados afetivos
  • *étodo:*Probing linear + análise de steering em ativações residual stream
  • *mplicação:*Modelos de linguagem desenvolvem representações internas que se comportam funcionalmente como emoções — não metáfora, mas estrutura computacional real
  • *autela:*Existência de representação ≠ "sentir" emoções — debate filosófico em aberto

Ferramentas e Recursos

Ferramenta Uso Link
TransformerLens Mech interp em GPT-2/Pythia github.comneelnanda-ioTransformerLens
Neuronpedia Database de features/neurons neuronpedia.org
Gemma Scope SAEs para Gemma 2 huggingface.cogooglegemma-scope
SAEBench Benchmark de SAEs github.comEleutherAIsae-evals
PySvelte Visualização de ativações Anthropic (interno)

Limitações Atuais

  1. *scala:*Técnicas funcionam bem em GPT-2 (124M); muito mais difícil em 70B+
  2. *ompletude:*SAEs capturam features mas não todo o comportamento
  3. *ausalidade:*Correlação ≠ causação; muitas descobertas são correlacionais
  4. *omposicionalidade:*Features individualmente interpretáveis ≠ raciocínio interpretável

Relevância para o Kode

  • *ebug de comportamentos:*Se Kode recusa código legítimo ou aceita código malicioso, mech interp pode localizar o erro
  • *onfiança:*Para uso em ambientes críticos, interpretabilidade é requisito
  • *ecomendação:*Integrar TransformerLens em pipeline de avaliação; monitorar Gemma Scope e Anthropic releases para técnicas aplicáveis

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/10-seguranca/interpretabilidade.md