Pos treino

Pós-Treino: SFT, Alinhamento e Reasoning

Supervised Fine-Tuning (SFT)

  • *bordagem:*Pares instruction + response; cross-entropy loss padrão
  • *ados:*UltraChat, WizardLM, OpenMathInstruct, The Stack v2 (para código)
  • *onto de partida:*Sempre começa aqui antes de qualquer preference optimization

Métodos de Preference Optimization

RLHF — Reinforcement Learning from Human Feedback

  • *rXiv:*2203.02155 (InstructGPT)
  • *ipeline:*SFT → Reward Model → PPO
  • *roblema:*Complexo, instável, requer reward model separado
  • *uando usar:*Quando você precisa de controle fino de comportamento (ex: Claude nível de segurança)

DPO — Direct Preference Optimization

  • *rXiv:*2305.18290 | NIPS 2023
  • *utores:*Rafailov et al.
  • *ecanismo:*Reformula RLHF como classificação; elimina reward model
  • *ados necessários:*Pares (preferred, rejected) por prompt
  • *antagem:*Muito mais simples que PPO; qualidade próxima
  • *sado por:*Fine-tuning do Llama 3, Qwen 2.5, maioria dos modelos modernos

KTO — Kahneman-Tversky Optimization

  • *antagem sobre DPO:*Funciona com feedback binário (bom/ruim) sem pares; dados mais fáceis de coletar
  • *ase:*Modelo de utilidade Kahneman-Tversky (prospect theory)

ORPO — Odds Ratio Preference Optimization

  • *ecanismo:*Combina SFT loss + penalidade de odds ratio em uma única etapa
  • *antagem:*Elimina fase SFT separada; treina em um passo só

SimPO — Simple Preference Optimization

  • *ecanismo:*Usa likelihood médio por token como reward; adiciona target reward margin
  • *antagem:*Mais simples que DPO; sem modelo de referência

IPO — Identity Preference Optimization

  • *oco:*Alinhamento de dados para aprendizado de preferência

Reinforcement Learning com Recompensa Verificável (RLVR)

PPO — Proximal Policy Optimization

  • *rXiv:*1707.06347
  • *uando usar:*Shaping comportamental forte; quando reward model é confiável
  • *usto:*Alto — requer policy model + value model + reward model em memória

GRPO — Group Relative Policy Optimization

  • *rXiv:*2402.03300 (DeepSeekMath)
  • *ecanismo:*Elimina critic model; estima baseline a partir de scores de grupo
  • *antagem:*Mais eficiente em memória que PPO; especialmente bom para raciocínio
  • *sado por:*DeepSeekR1, DeepSeekMath, muitos modelos de reasoning 2025

REINFORCE++

  • *rXiv:*2501.03262
  • *ariante:*Estabiliza REINFORCE clássico para LLMs grandes

DAPO (ByteDance)

  • *rXiv:*2503.14476
  • *istema:*RL em larga escala opensource; clipping adaptativo, tokenlevel policy gradient
  • *roblema resolvido:*Instabilidades no treinamento de modelos de reasoning com CoTs longos (reward collapse, entropy collapse)
  • *esultados:*50 pontos no AIME 2024; supera DeepSeekR1Zero com 50% menos passos de treinamento
  • *écnicas chave:*Dynamic Sampling Policy Optimization (DSPO) + ClipHigher heuristic + tokenlevel loss para CoTs longos
  • *uando usar:*Treinamento RLVR quando os CoTs são muito longos (>2K tokens) e PPO/GRPO colapsam

Reward Models

Outcome Reward Models (ORMs)

  • *eedback:*Apenas no resultado final (esparso)
  • *roblema:*Não localiza erros intermediários

Process Reward Models (PRMs)

  • *rXiv:*2305.20050 (Let's Verify Step by Step)
  • *eedback:*A cada passo do raciocínio (denso)
  • *antagem:*Localiza erros; melhor interpretabilidade; permite search na inferência
  • *esultado:*Modelos menores com PRM superam modelos maiores com ORM

Constitutional AI (CAI)

  • *rXiv:*2212.08073 | Anthropic 2022
  • *ecanismo:*Modelo critica e revisa próprias saídas usando princípios ("constituição") predefinidos
  • *enefício:*Alinhamento escalonável sem labels humanos constantes
  • *ariante:*RLAIF — AI feedback substitui human feedback no reward model

LLMasJudge

  • *onceito:*LLM avalia qualidade de respostas de outros LLMs
  • *urveys:*arXiv:2412.05579 (LLMsasJudges: Comprehensive Survey)
  • *ipos:*SingleLLM, MultiLLM, Agentasa-Judge
  • *ias comum:*Position bias, verbosity bias, self-preference bias
  • *so:*AlpacaEval 2.0, ArenaHard — baseados em LLMas-Judge

Test-Time Compute (Scaling de Inferência)

  • *onceito:*Gastar compute na inferência frequentemente rende mais que aumentar modelo
  • *rXiv:*2408.03314 (Scaling Test-Time Compute)
  • *écnicas:*
    • Múltiplas amostras + verificação (bestofN)
    • MCTS em texto
    • Beam search com PRM
    • Extended thinking (Claude, o1/o3)
  • *ase dos modelos:*OpenAI o1/o3, Claude Extended Thinking, DeepSeek-R1

Paradigma de Reasoning (2025–2026)

O maior salto de raciocínio vem de RLVR com recompensas verificáveis:

  1. *ados de raciocínio de alta qualidade:*CoTs longos verificáveis (matemática olímpica, código)
  2. *rocess Reward Models:*Feedback a cada passo
  3. *LVR (GRPO/PPO):*reward = "passou ou não passou" nos testes
  4. *est-time search:*beam search + verificador formal

*usto realista para reproduzir R1-style:*2× RTX 4090 por 2–4 semanas de experimentação.


Recomendação de Pipeline para Kode

Fase Técnica Ferramentas
1. SFT Fine-tuning supervisionado em código Koder Axolotl ou LLaMA-Factory
2. DPO Preferências de aceite/rejeição de sugestões TRL DPO
3. RLVR Build/test como reward verificável TRL GRPO
4. Test-time Beam search + verificador de código Custom

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/04-treinamento/pos-treino.md