Dados sinteticos

Dados Sintéticos para Treinamento

Por Que Dados Sintéticos?

  • *usto:*Dados reais de alta qualidade são escassos e caros de anotar
  • *ontrole:*Distribuição, dificuldade, formato exatamente como desejado
  • *rivacidade:*Sem dados pessoais, sem risco de vazamento
  • *scalabilidade:*Gerar milhões de exemplos automaticamente
  • *omínios específicos:*Código, matemática, raciocínio — poucos dados reais de alta qualidade

*isco principal:*Se o modelo gerador tem um viés, o modelo treinado herda esse viés.


Self-Instruct

  • *rXiv:*2212.10560 | ACL 2023
  • *utores:*Wang et al. (Allen AI)
  • *ecanismo:*LLM gera instruções → gera instâncias → filtra → fine-tunes a si mesmo
  • *esultado:*GPT3 com SelfInstruct aproxima InstructGPT com fração do custo
  • *mpacto:*Base para Alpaca, WizardLM e toda geração seguinte de dados sintéticos

Alpaca

  • *aper:*"Stanford Alpaca: An Instruction-Following LLaMA Model"
  • *utores:*Taori et al. (Stanford CRFM) — 2023
  • *rocesso:*SelfInstruct com GPT3.5-turbo → 52K instruções · $500 de custo
  • *odelo:*LLaMA 7B fine-tuned
  • *mpacto:*Demonstrou que finetuning barato funciona; licença nãocomercial

WizardLM — Evol-Instruct

  • *rXiv:*2304.12244
  • *ecanismo:*Toma instruções simples e as "evolui" (mais profundas, mais específicas, mais restritas) usando LLM como mutação
  • *esultado:*Instruções muito mais complexas que Self-Instruct simples
  • *izardCoder:*Aplicação para código (Python, C++, Java)
  • *izardMath:*Aplicação para matemática

Orca — Process Supervision com GPT-4

  • *rXiv:*2306.02707 (Orca 1) · 2311.11045 (Orca 2) — Microsoft 2023
  • *novação:*Explica o raciocínio passo a passo (system prompt especializado)
  • *ados:*~1M exemplos de chainofthought completo com GPT-4
  • *esultado:*Orca 13B supera Vicuna 13B e LLaMA-65B em muitas tarefas

Orca-Math

  • *rXiv:*2402.14830
  • *ados:*200K problemas matemáticos gerados via Agent-Instruct
  • *ecanismo:*Agentes especializados geram e verificam problemas
  • *esultado:*Phi2 (2.7B) com OrcaMath supera GPT3.5turbo em GSM8K

Microsoft Phi Series — "Textbooks Are All You Need"

  • *hi-1:*arXiv:2306.11644 (2023)
    • 7B tokens de código sintético estilo "textbook" gerado por GPT-4
    • 1.3B parâmetros supera modelos treinados em >100B tokens de código
    • *chado chave:*Qualidade "educacional" do dado importa mais que volume
  • *hi-1.5:*arXiv:2309.05463
    • 30B tokens sintéticos + 20B web filtrado
    • 1.3B parâmetros; raciocínio comum e matemática
  • *hi-2:*2.7B parâmetros; dados de código sintético + curado NLP
    • Supera Mistral 7B em muitos benchmarks
  • *hi3Mini:*arXiv:2404.14219
    • "Phi-3 Cookbook": dados sintéticos de qualidade didática
    • 3.8B parâmetros, 128K contexto; performance de modelo 7B
  • *hi-4:*arXiv:2412.08905 (2024)
    • Síntese de dados multiestágio: curadoria → síntese → síntese de síntese
    • 14B parâmetros; melhor em STEM que modelos 3× maiores

OpenHermes — Dados Sintéticos Gerais

  • *penHermes 2.5:*900K instruções sintéticas de alta qualidade
    • Geradas com Mistral, LLaMA 2 e outros modelos
    • Curadoria rigorosa; estado da arte open-source em instrução

Métodos de Geração para Matemática

MetaMathQA

  • *rXiv:*2309.12284
  • *ecanismo:*Reformulação dos problemas de treino via GPT-4 (reversão, forward reasoning)
  • *ados:*Augmentation de MATH e GSM8K
  • *esultado:*LLaMA-2 70B com MetaMathQA supera modelos muito maiores

OpenMathInstruct

  • *:*1.8M pares (Mixtral 8x7B → Llama 3)
  • *:*Versão expandida com Llama 3
  • *onte:*Resolução múltipla de problemas MATH e AMC/AIME com seleção pelo melhor

NuminaMath TIR (Tool-Integrated Reasoning)

  • *ados:*860K problemas de competições matemáticas
  • *bordagem:*Escreve código Python → executa → incorpora resultado no raciocínio
  • *encedor:*MATH Olympiad (competition math) track do NeurIPS 2024

Self-Rewarding Language Models

  • *rXiv:*2401.10020 (Meta 2024)
  • *ecanismo:*Modelo avalia as próprias respostas (LLMasJudge sobre si mesmo) para gerar dados de preferência iterativamente
  • *esultado:*Melhora a cada iteração sem feedback humano adicional
  • *imitação:*Vieses se autoreforçam se não houver groundtruth externo

Constitutional AI Synthesis (Anthropic)

  • *ecanismo:*Modelo critica as próprias respostas contra princípios → gera dados de preferência
  • *ados resultantes:*Pares (harmfulresponse, revisedresponse) para DPO/RLHF
  • *scala:*Evita necessidade de anotação humana massiva para alinhamento

Magpie — Dados de Instrução de Alta Qualidade

  • *rXiv:*2406.08464
  • *ecanismo:*Faz o modelo gerar suas próprias instruções sem seed
  • *antagem:*Alinhado ao estilo de resposta do próprio modelo base

Tabela Comparativa de Abordagens

Método Gera Custo Risco de Viés Quando Usar
Self-Instruct Instruções diversas Baixo Médio Bootstrap inicial
Evol-Instruct Instruções difíceis Médio Médio Raciocínio complexo
Orca / CoT Cadeias de raciocínio Alto (GPT-4) Baixo Raciocínio passo a passo
Phi Textbooks Texto didático Alto Baixo SLMs eficientes
Self-Rewarding Dados de preferência Baixo Alto Iterações de alinhamento
MetaMath Variações de problemas Médio Baixo Matemática

Para o Kode

  • *ase SFT:*Gerar via GPT-4o ou Claude exemplos de code review, refactoring, debugging
  • *ormato:*Instruction = contexto do repo + pergunta; Response = código + explicação em CoT
  • *olume:*50K–200K exemplos sintéticos de alta qualidade > 1M de baixa qualidade (lição do Phi)
  • *erificação automática:*Só incluir exemplos onde o código gerado passa nos testes

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/04-treinamento/dados-sinteticos.md