Pos treino

Pós-Treino: SFT, Alinhamento e Reasoning

*rXiv:*2203.02155 (InstructGPT)
*ipeline:*SFT → Reward Model → PPO
*roblema:*Complexo, instável, requer reward model separado
*uando usar:*Quando você precisa de controle fino de comportamento (ex: Claude nível de segurança)

*antagem sobre DPO:*Funciona com feedback binário (bom/ruim) sem pares; dados mais fáceis de coletar
*ase:*Modelo de utilidade Kahneman-Tversky (prospect theory)

*ecanismo:*Usa likelihood médio por token como reward; adiciona target reward margin
*antagem:*Mais simples que DPO; sem modelo de referência

*rXiv:*2503.14476
*istema:*RL em larga escala open~~source; clipping adaptativo, token~~level policy gradient
*roblema resolvido:*Instabilidades no treinamento de modelos de reasoning com CoTs longos (reward collapse, entropy collapse)
*esultados:*50 pontos no AIME 2024; supera DeepSeekR1Zero com 50% menos passos de treinamento
*écnicas chave:*Dynamic Sampling Policy Optimization (DSPO) + Clip~~Higher heuristic + token~~level loss para CoTs longos
*uando usar:*Treinamento RLVR quando os CoTs são muito longos (>2K tokens) e PPO/GRPO colapsam

*rXiv:*2305.20050 (Let's Verify Step by Step)
*eedback:*A cada passo do raciocínio (denso)
*antagem:*Localiza erros; melhor interpretabilidade; permite search na inferência
*esultado:*Modelos menores com PRM superam modelos maiores com ORM

*rXiv:*2212.08073 | Anthropic 2022
*ecanismo:*Modelo critica e revisa próprias saídas usando princípios ("constituição") predefinidos
*enefício:*Alinhamento escalonável sem labels humanos constantes
*ariante:*RLAIF — AI feedback substitui human feedback no reward model

*onceito:*Gastar compute na inferência frequentemente rende mais que aumentar modelo
*rXiv:*2408.03314 (Scaling Test-Time Compute)
*écnicas:*
- Múltiplas amostras + verificação (bestofN)
- MCTS em texto
- Beam search com PRM
- Extended thinking (Claude, o1/o3)
*ase dos modelos:*OpenAI o1/o3, Claude Extended Thinking, DeepSeek-R1

O maior salto de raciocínio vem de RLVR com recompensas verificáveis:

*ados de raciocínio de alta qualidade:*CoTs longos verificáveis (matemática olímpica, código)
*rocess Reward Models:*Feedback a cada passo
*LVR (GRPO/PPO):*reward = "passou ou não passou" nos testes
*est-time search:*beam search + verificador formal

*usto realista para reproduzir R1-style:*2× RTX 4090 por 2–4 semanas de experimentação.

Fase	Técnica	Ferramentas
1. SFT	Fine-tuning supervisionado em código Koder	Axolotl ou LLaMA-Factory
2. DPO	Preferências de aceite/rejeição de sugestões	TRL DPO
3. RLVR	Build/test como reward verificável	TRL GRPO
4. Test-time	Beam search + verificador de código	Custom