Dados sinteticos

Dados Sintéticos para Treinamento

Por Que Dados Sintéticos?

*usto:*Dados reais de alta qualidade são escassos e caros de anotar
*ontrole:*Distribuição, dificuldade, formato exatamente como desejado
*rivacidade:*Sem dados pessoais, sem risco de vazamento
*scalabilidade:*Gerar milhões de exemplos automaticamente
*omínios específicos:*Código, matemática, raciocínio — poucos dados reais de alta qualidade

*isco principal:*Se o modelo gerador tem um viés, o modelo treinado herda esse viés.

Self-Instruct

*rXiv:*2212.10560 | ACL 2023
*utores:*Wang et al. (Allen AI)
*ecanismo:*LLM gera instruções → gera instâncias → filtra → fine-tunes a si mesmo
*esultado:*GPT~~3 com Self~~Instruct aproxima InstructGPT com fração do custo
*mpacto:*Base para Alpaca, WizardLM e toda geração seguinte de dados sintéticos

Alpaca

*aper:*"Stanford Alpaca: An Instruction-Following LLaMA Model"
*utores:*Taori et al. (Stanford CRFM) — 2023
*rocesso:*Self~~Instruct com GPT~~3.5-turbo → 52K instruções · $500 de custo
*odelo:*LLaMA 7B fine-tuned
*mpacto:*Demonstrou que fine~~tuning barato funciona; licença não~~comercial

WizardLM — Evol-Instruct

*rXiv:*2304.12244
*ecanismo:*Toma instruções simples e as "evolui" (mais profundas, mais específicas, mais restritas) usando LLM como mutação
*esultado:*Instruções muito mais complexas que Self-Instruct simples
*izardCoder:*Aplicação para código (Python, C++, Java)
*izardMath:*Aplicação para matemática

Orca — Process Supervision com GPT-4

*rXiv:*2306.02707 (Orca 1) · 2311.11045 (Orca 2) — Microsoft 2023
*novação:*Explica o raciocínio passo a passo (system prompt especializado)
*ados:*~1M exemplos de chainofthought completo com GPT-4
*esultado:*Orca 13B supera Vicuna 13B e LLaMA-65B em muitas tarefas

Orca-Math

*rXiv:*2402.14830
*ados:*200K problemas matemáticos gerados via Agent-Instruct
*ecanismo:*Agentes especializados geram e verificam problemas
*esultado:*Phi~~2 (2.7B) com Orca~~Math supera GPT~~3.5~~turbo em GSM8K

Microsoft Phi Series — "Textbooks Are All You Need"

*hi-1:*arXiv:2306.11644 (2023)
- 7B tokens de código sintético estilo "textbook" gerado por GPT-4
- 1.3B parâmetros supera modelos treinados em >100B tokens de código
- *chado chave:*Qualidade "educacional" do dado importa mais que volume

*hi-1.5:*arXiv:2309.05463
- 30B tokens sintéticos + 20B web filtrado
- 1.3B parâmetros; raciocínio comum e matemática

*hi-2:*2.7B parâmetros; dados de código sintético + curado NLP
- Supera Mistral 7B em muitos benchmarks

*hi3Mini:*arXiv:2404.14219
- "Phi-3 Cookbook": dados sintéticos de qualidade didática
- 3.8B parâmetros, 128K contexto; performance de modelo 7B

*hi-4:*arXiv:2412.08905 (2024)
- Síntese de dados multiestágio: curadoria → síntese → síntese de síntese
- 14B parâmetros; melhor em STEM que modelos 3× maiores

OpenHermes — Dados Sintéticos Gerais

*penHermes 2.5:*900K instruções sintéticas de alta qualidade
- Geradas com Mistral, LLaMA 2 e outros modelos
- Curadoria rigorosa; estado da arte open-source em instrução

Métodos de Geração para Matemática

MetaMathQA

*rXiv:*2309.12284
*ecanismo:*Reformulação dos problemas de treino via GPT-4 (reversão, forward reasoning)
*ados:*Augmentation de MATH e GSM8K
*esultado:*LLaMA-2 70B com MetaMathQA supera modelos muito maiores

OpenMathInstruct

*:*1.8M pares (Mixtral 8x7B → Llama 3)
*:*Versão expandida com Llama 3
*onte:*Resolução múltipla de problemas MATH e AMC/AIME com seleção pelo melhor

NuminaMath TIR (Tool-Integrated Reasoning)

*ados:*860K problemas de competições matemáticas
*bordagem:*Escreve código Python → executa → incorpora resultado no raciocínio
*encedor:*MATH Olympiad (competition math) track do NeurIPS 2024

Self-Rewarding Language Models

*rXiv:*2401.10020 (Meta 2024)
*ecanismo:*Modelo avalia as próprias respostas (LLMasJudge sobre si mesmo) para gerar dados de preferência iterativamente
*esultado:*Melhora a cada iteração sem feedback humano adicional
*imitação:*Vieses se auto~~reforçam se não houver ground~~truth externo

Constitutional AI Synthesis (Anthropic)

*ecanismo:*Modelo critica as próprias respostas contra princípios → gera dados de preferência
*ados resultantes:*Pares (harmfulresponse, revisedresponse) para DPO/RLHF
*scala:*Evita necessidade de anotação humana massiva para alinhamento

Magpie — Dados de Instrução de Alta Qualidade

*rXiv:*2406.08464
*ecanismo:*Faz o modelo gerar suas próprias instruções sem seed
*antagem:*Alinhado ao estilo de resposta do próprio modelo base

Tabela Comparativa de Abordagens

Método	Gera	Custo	Risco de Viés	Quando Usar
Self-Instruct	Instruções diversas	Baixo	Médio	Bootstrap inicial
Evol-Instruct	Instruções difíceis	Médio	Médio	Raciocínio complexo
Orca / CoT	Cadeias de raciocínio	Alto (GPT-4)	Baixo	Raciocínio passo a passo
Phi Textbooks	Texto didático	Alto	Baixo	SLMs eficientes
Self-Rewarding	Dados de preferência	Baixo	Alto	Iterações de alinhamento
MetaMath	Variações de problemas	Médio	Baixo	Matemática

Para o Kode

*ase SFT:*Gerar via GPT-4o ou Claude exemplos de code review, refactoring, debugging
*ormato:*Instruction = contexto do repo + pergunta; Response = código + explicação em CoT
*olume:*50K–200K exemplos sintéticos de alta qualidade > 1M de baixa qualidade (lição do Phi)
*erificação automática:*Só incluir exemplos onde o código gerado passa nos testes