Dados sinteticos
Dados Sintéticos para Treinamento
Por Que Dados Sintéticos?
- *usto:*Dados reais de alta qualidade são escassos e caros de anotar
- *ontrole:*Distribuição, dificuldade, formato exatamente como desejado
- *rivacidade:*Sem dados pessoais, sem risco de vazamento
- *scalabilidade:*Gerar milhões de exemplos automaticamente
- *omínios específicos:*Código, matemática, raciocínio — poucos dados reais de alta qualidade
*isco principal:*Se o modelo gerador tem um viés, o modelo treinado herda esse viés.
Self-Instruct
- *rXiv:*2212.10560 | ACL 2023
- *utores:*Wang et al. (Allen AI)
- *ecanismo:*LLM gera instruções → gera instâncias → filtra → fine-tunes a si mesmo
- *esultado:*GPT
3 com SelfInstruct aproxima InstructGPT com fração do custo - *mpacto:*Base para Alpaca, WizardLM e toda geração seguinte de dados sintéticos
Alpaca
- *aper:*"Stanford Alpaca: An Instruction-Following LLaMA Model"
- *utores:*Taori et al. (Stanford CRFM) — 2023
- *rocesso:*Self
Instruct com GPT3.5-turbo → 52K instruções · $500 de custo - *odelo:*LLaMA 7B fine-tuned
- *mpacto:*Demonstrou que fine
tuning barato funciona; licença nãocomercial
WizardLM — Evol-Instruct
- *rXiv:*2304.12244
- *ecanismo:*Toma instruções simples e as "evolui" (mais profundas, mais específicas, mais restritas) usando LLM como mutação
- *esultado:*Instruções muito mais complexas que Self-Instruct simples
- *izardCoder:*Aplicação para código (Python, C++, Java)
- *izardMath:*Aplicação para matemática
Orca — Process Supervision com GPT-4
- *rXiv:*2306.02707 (Orca 1) · 2311.11045 (Orca 2) — Microsoft 2023
- *novação:*Explica o raciocínio passo a passo (system prompt especializado)
- *ados:*~1M exemplos de chain
ofthought completo com GPT-4 - *esultado:*Orca 13B supera Vicuna 13B e LLaMA-65B em muitas tarefas
Orca-Math
- *rXiv:*2402.14830
- *ados:*200K problemas matemáticos gerados via Agent-Instruct
- *ecanismo:*Agentes especializados geram e verificam problemas
- *esultado:*Phi
2 (2.7B) com OrcaMath supera GPT3.5turbo em GSM8K
Microsoft Phi Series — "Textbooks Are All You Need"
- *hi-1:*arXiv:2306.11644 (2023)
- 7B tokens de código sintético estilo "textbook" gerado por GPT-4
- 1.3B parâmetros supera modelos treinados em >100B tokens de código
- *chado chave:*Qualidade "educacional" do dado importa mais que volume
- *hi-1.5:*arXiv:2309.05463
- 30B tokens sintéticos + 20B web filtrado
- 1.3B parâmetros; raciocínio comum e matemática
- *hi-2:*2.7B parâmetros; dados de código sintético + curado NLP
- Supera Mistral 7B em muitos benchmarks
- *hi
3Mini:*arXiv:2404.14219- "Phi-3 Cookbook": dados sintéticos de qualidade didática
- 3.8B parâmetros, 128K contexto; performance de modelo 7B
- *hi-4:*arXiv:2412.08905 (2024)
- Síntese de dados multiestágio: curadoria → síntese → síntese de síntese
- 14B parâmetros; melhor em STEM que modelos 3× maiores
OpenHermes — Dados Sintéticos Gerais
- *penHermes 2.5:*900K instruções sintéticas de alta qualidade
- Geradas com Mistral, LLaMA 2 e outros modelos
- Curadoria rigorosa; estado da arte open-source em instrução
Métodos de Geração para Matemática
MetaMathQA
- *rXiv:*2309.12284
- *ecanismo:*Reformulação dos problemas de treino via GPT-4 (reversão, forward reasoning)
- *ados:*Augmentation de MATH e GSM8K
- *esultado:*LLaMA-2 70B com MetaMathQA supera modelos muito maiores
OpenMathInstruct
- *:*1.8M pares (Mixtral 8x7B → Llama 3)
- *:*Versão expandida com Llama 3
- *onte:*Resolução múltipla de problemas MATH e AMC/AIME com seleção pelo melhor
NuminaMath TIR (Tool-Integrated Reasoning)
- *ados:*860K problemas de competições matemáticas
- *bordagem:*Escreve código Python → executa → incorpora resultado no raciocínio
- *encedor:*MATH Olympiad (competition math) track do NeurIPS 2024
Self-Rewarding Language Models
- *rXiv:*2401.10020 (Meta 2024)
- *ecanismo:*Modelo avalia as próprias respostas (LLM
asJudge sobre si mesmo) para gerar dados de preferência iterativamente - *esultado:*Melhora a cada iteração sem feedback humano adicional
- *imitação:*Vieses se auto
reforçam se não houver groundtruth externo
Constitutional AI Synthesis (Anthropic)
- *ecanismo:*Modelo critica as próprias respostas contra princípios → gera dados de preferência
- *ados resultantes:*Pares (harmfulresponse, revisedresponse) para DPO/RLHF
- *scala:*Evita necessidade de anotação humana massiva para alinhamento
Magpie — Dados de Instrução de Alta Qualidade
- *rXiv:*2406.08464
- *ecanismo:*Faz o modelo gerar suas próprias instruções sem seed
- *antagem:*Alinhado ao estilo de resposta do próprio modelo base
Tabela Comparativa de Abordagens
| Método | Gera | Custo | Risco de Viés | Quando Usar |
|---|---|---|---|---|
| Self-Instruct | Instruções diversas | Baixo | Médio | Bootstrap inicial |
| Evol-Instruct | Instruções difíceis | Médio | Médio | Raciocínio complexo |
| Orca / CoT | Cadeias de raciocínio | Alto (GPT-4) | Baixo | Raciocínio passo a passo |
| Phi Textbooks | Texto didático | Alto | Baixo | SLMs eficientes |
| Self-Rewarding | Dados de preferência | Baixo | Alto | Iterações de alinhamento |
| MetaMath | Variações de problemas | Médio | Baixo | Matemática |
Para o Kode
- *ase SFT:*Gerar via GPT-4o ou Claude exemplos de code review, refactoring, debugging
- *ormato:*Instruction = contexto do repo + pergunta; Response = código + explicação em CoT
- *olume:*50K–200K exemplos sintéticos de alta qualidade > 1M de baixa qualidade (lição do Phi)
- *erificação automática:*Só incluir exemplos onde o código gerado passa nos testes