Pos treino
Pós-Treino: SFT, Alinhamento e Reasoning
Supervised Fine-Tuning (SFT)
- *bordagem:*Pares instruction + response; cross-entropy loss padrão
- *ados:*UltraChat, WizardLM, OpenMathInstruct, The Stack v2 (para código)
- *onto de partida:*Sempre começa aqui antes de qualquer preference optimization
Métodos de Preference Optimization
RLHF — Reinforcement Learning from Human Feedback
- *rXiv:*2203.02155 (InstructGPT)
- *ipeline:*SFT → Reward Model → PPO
- *roblema:*Complexo, instável, requer reward model separado
- *uando usar:*Quando você precisa de controle fino de comportamento (ex: Claude nível de segurança)
DPO — Direct Preference Optimization
- *rXiv:*2305.18290 | NIPS 2023
- *utores:*Rafailov et al.
- *ecanismo:*Reformula RLHF como classificação; elimina reward model
- *ados necessários:*Pares (preferred, rejected) por prompt
- *antagem:*Muito mais simples que PPO; qualidade próxima
- *sado por:*Fine-tuning do Llama 3, Qwen 2.5, maioria dos modelos modernos
KTO — Kahneman-Tversky Optimization
- *antagem sobre DPO:*Funciona com feedback binário (bom/ruim) sem pares; dados mais fáceis de coletar
- *ase:*Modelo de utilidade Kahneman-Tversky (prospect theory)
ORPO — Odds Ratio Preference Optimization
- *ecanismo:*Combina SFT loss + penalidade de odds ratio em uma única etapa
- *antagem:*Elimina fase SFT separada; treina em um passo só
SimPO — Simple Preference Optimization
- *ecanismo:*Usa likelihood médio por token como reward; adiciona target reward margin
- *antagem:*Mais simples que DPO; sem modelo de referência
IPO — Identity Preference Optimization
- *oco:*Alinhamento de dados para aprendizado de preferência
Reinforcement Learning com Recompensa Verificável (RLVR)
PPO — Proximal Policy Optimization
- *rXiv:*1707.06347
- *uando usar:*Shaping comportamental forte; quando reward model é confiável
- *usto:*Alto — requer policy model + value model + reward model em memória
GRPO — Group Relative Policy Optimization
- *rXiv:*2402.03300 (DeepSeekMath)
- *ecanismo:*Elimina critic model; estima baseline a partir de scores de grupo
- *antagem:*Mais eficiente em memória que PPO; especialmente bom para raciocínio
- *sado por:*DeepSeek
R1, DeepSeekMath, muitos modelos de reasoning 2025
REINFORCE++
- *rXiv:*2501.03262
- *ariante:*Estabiliza REINFORCE clássico para LLMs grandes
DAPO (ByteDance)
- *rXiv:*2503.14476
- *istema:*RL em larga escala open
source; clipping adaptativo, tokenlevel policy gradient - *roblema resolvido:*Instabilidades no treinamento de modelos de reasoning com CoTs longos (reward collapse, entropy collapse)
- *esultados:*50 pontos no AIME 2024; supera DeepSeek
R1Zero com 50% menos passos de treinamento - *écnicas chave:*Dynamic Sampling Policy Optimization (DSPO) + Clip
Higher heuristic + tokenlevel loss para CoTs longos - *uando usar:*Treinamento RLVR quando os CoTs são muito longos (>2K tokens) e PPO/GRPO colapsam
Reward Models
Outcome Reward Models (ORMs)
- *eedback:*Apenas no resultado final (esparso)
- *roblema:*Não localiza erros intermediários
Process Reward Models (PRMs)
- *rXiv:*2305.20050 (Let's Verify Step by Step)
- *eedback:*A cada passo do raciocínio (denso)
- *antagem:*Localiza erros; melhor interpretabilidade; permite search na inferência
- *esultado:*Modelos menores com PRM superam modelos maiores com ORM
Constitutional AI (CAI)
- *rXiv:*2212.08073 | Anthropic 2022
- *ecanismo:*Modelo critica e revisa próprias saídas usando princípios ("constituição") predefinidos
- *enefício:*Alinhamento escalonável sem labels humanos constantes
- *ariante:*RLAIF — AI feedback substitui human feedback no reward model
LLMasJudge
- *onceito:*LLM avalia qualidade de respostas de outros LLMs
- *urveys:*arXiv:2412.05579 (LLMs
asJudges: Comprehensive Survey) - *ipos:*Single
LLM, MultiLLM, Agentasa-Judge - *ias comum:*Position bias, verbosity bias, self-preference bias
- *so:*AlpacaEval 2.0, Arena
Hard — baseados em LLMas-Judge
Test-Time Compute (Scaling de Inferência)
- *onceito:*Gastar compute na inferência frequentemente rende mais que aumentar modelo
- *rXiv:*2408.03314 (Scaling Test-Time Compute)
- *écnicas:*
- Múltiplas amostras + verificação (best
ofN) - MCTS em texto
- Beam search com PRM
- Extended thinking (Claude, o1/o3)
- Múltiplas amostras + verificação (best
- *ase dos modelos:*OpenAI o1/o3, Claude Extended Thinking, DeepSeek-R1
Paradigma de Reasoning (2025–2026)
O maior salto de raciocínio vem de RLVR com recompensas verificáveis:
- *ados de raciocínio de alta qualidade:*CoTs longos verificáveis (matemática olímpica, código)
- *rocess Reward Models:*Feedback a cada passo
- *LVR (GRPO/PPO):*reward = "passou ou não passou" nos testes
- *est-time search:*beam search + verificador formal
*usto realista para reproduzir R1-style:*2× RTX 4090 por 2–4 semanas de experimentação.
Recomendação de Pipeline para Kode
| Fase | Técnica | Ferramentas |
|---|---|---|
| 1. SFT | Fine-tuning supervisionado em código Koder | Axolotl ou LLaMA-Factory |
| 2. DPO | Preferências de aceite/rejeição de sugestões | TRL DPO |
| 3. RLVR | Build/test como reward verificável | TRL GRPO |
| 4. Test-time | Beam search + verificador de código | Custom |