Economia

Economia e Estratégia de IA

Custo de treino por escala, build vs fine-tune vs API, roadmap de modelo, competências necessárias. Atualizado em abril de 2026.


Visão Geral

Construir um LLM próprio é uma decisão econômica antes de ser técnica. O custo total varia em ordens de magnitude dependendo da escala, e a estratégia certa depende do caso de uso.

Este documento responde:

  1. Quanto custa treinar em cada escala?
  2. Quando vale a pena construir do zero vs fine-tune vs usar API?
  3. Qual o roadmap ideal para evoluir um modelo próprio?
  4. Que equipe e competências são necessárias?

Custo de Treino por Escala

Pré-treino from scratch

Escala Parâmetros Tokens de treino GPU-hours A100 Custo USD Custo BRL*
*ano* 100M 10B ~500 $1.5K R$ 8K
*equeno* 1B 100B ~5.000 $15K R$ 85K
*édio* 7B 1T ~50.000 $150K R$ 850K
*rande* 30B 3T ~200.000 $600K R$ 3.4M
*rontier* 70B 6T ~500.000 $1.5M R$ 8.5M
*tateofart* 175B+ 10T+ ~2M+ $5M+ R$ 28M+

* Taxa de R$ 5.70/USD, valores aproximados de cloud (Lambda Labs, CoreWeave). On-premise pode ser 30–50% mais barato em TCO de 3 anos.

Detalhamento do custo de GPU

Provedor A100 80GB/hora H100/hora RTX 4090/hora
Lambda Labs $2.80 $4.50 $0.80
CoreWeave $2.50 $4.20
AWS (p4d) $32.77
GCP (A2) $3.67
Azure (ND96) $33.00
*n-premise* *0.50–1.00* *1.50–2.50* *0.10–0.20*

*ota:*AWSGCPAzure são 10–15× mais caros que provedores especializados em GPU. Para treino de LLM, sempre usar LambdaCoreWeaveRunPod ou on-premise.

Fine-tuning (QLoRA/LoRA)

Modelo base Fine-tune em GPU-hours A100 Custo USD
Llama3.18B 10K exemplos SFT ~20 $50
Llama3.18B 100K exemplos SFT ~100 $280
Qwen2.5Coder32B 50K exemplos SFT ~200 $560
Qwen2.5Coder32B 500K exemplos SFT + DPO ~1.000 $2.800
DeepSeekR170B 1M exemplos RLVR ~5.000 $14.000

*inetuning é 100–1000× mais barato que prétreino.*


Build vs Fine-Tune vs API

Matriz de decisão

Fator API (OpenAI/Anthropic) FineTune (opensource) Build do zero
*usto inicial* $0 \(500–\)15K \(150K–\)5M+
*usto por uso* Alto ($/token) Baixo (self-hosted) Muito baixo
*ustomização* Nenhuma Alta Total
*rivacidade* Dados vão para o provider Self-hosted Self-hosted
*atência* 200–1000ms 50–300ms (local) 50–300ms (local)
*endor lock-in* Alto Baixo Nenhum
*ime to production* 1 dia 1–4 semanas 3–12 meses
*anutenção* Zero Baixa Alta

Quando usar cada abordagem

API (GPT-4o, Claude, Gemini)

*ale quando:*

  • Prototipando um produto (validar demanda antes de investir)
  • O caso de uso não é core do negócio
  • Não há dados sensíveis
  • O volume de uso é baixo (< 1M tokens/dia)

*ão vale quando:*

  • O produto É a IA (lock-in é risco existencial)
  • Dados sensíveis (saúde, jurídico, financeiro)
  • Volume alto (custo mensal explode)
  • Latência crítica (< 100ms)

FineTune (modelo opensource)

*ale quando:*

  • O caso de uso é core mas não justifica pré-treino
  • Precisa de customização de domínio (código, jurídico, médico)
  • Quer privacidade sem custo de pré-treino
  • Tem dados proprietários de qualidade

*ão vale quando:*

  • O modelo base já resolve 95% dos casos
  • Não tem dados de qualidade para fine-tune
  • Precisa de capacidades que o modelo base não tem (ex: raciocínio matemático avançado)

Build do zero

*ale quando:*

  • A IA é o produto principal da empresa
  • Precisa de capacidades que nenhum modelo existente tem
  • Tem orçamento e equipe para 6–12 meses de desenvolvimento
  • Quer diferenciação competitiva sustentável

*ão vale quando:*

  • É a primeira vez construindo IA (começar com fine-tune)
  • O mercado está evoluindo rápido demais (modelo fica obsoleto)
  • Não tem dados proprietários suficientes

Recomendação para a Koder

*ase 1 (0–3 meses): API + Fine-tune*

  • Usar API para prototipar produtos
  • Finetune de Qwen2.5Coder-32B para o Kode (coding assistant)
  • Custo: \(500–\)3K

*ase 2 (3–9 meses): Fine-tune avançado*

  • Fine-tune com RLVR (reinforcement learning from verifier rewards)
  • Construir dataset proprietário de código Koder
  • Treinar reward model próprio
  • Custo: \(5K–\)30K

*ase 3 (9–18 meses): Modelo próprio*

  • Pré-treino de modelo 7–30B focado em código + linguagem natural
  • Dataset de 1–3T tokens (The Stack + CommonCrawl curado + dados Koder)
  • Custo: \(150K–\)600K

Roadmap de Modelo

Maturity model

Nível 0: API externa
  → GPT-4o, Claude, Gemini
  → Zero controle, máximo vendor lock-in

Nível 1: Fine-tune de modelo open
  → Llama-3.1-8B ou Qwen2.5-Coder-32B fine-tuned
  → Customização de domínio, self-hosted
  → 1–4 semanas para produzir

Nível 2: Fine-tune avançado + RLVR
  → SFT + DPO + RLVR com reward model próprio
  → Alinhado com preferência do usuário Koder
  → 1–3 meses

Nível 3: Pré-treino de modelo de nicho
  → Modelo 7–13B pré-treinado em código + docs técnicas
  → Diferenciação em coding tasks
  → 3–6 meses

Nível 4: Modelo próprio full-stack
  → Modelo 30B+ pré-treinado do zero
  → Arquitetura própria (ex: MoE, hybrid)
  → Diferenciação sustentável
  → 6–18 meses

Quando escalar

Sinal Ação
API custa > $5K/mês Migrar para finetune selfhosted
Fine-tune não resolve 20% dos casos Adicionar RLVR ou aumentar modelo base
Fine-tune custa > $20K/mês em GPU Considerar pré-treino de modelo menor
Concorrentes lançam modelo próprio Acelerar roadmap
Dados proprietários > 100B tokens Pré-treino justificado

Equipe e Competências

Equipe mínima para cada nível

Nível Papel Qtde Senioridade
* (API)* ML Engineer 1 Mid
* (Fine-tune)* ML Engineer 1–2 Mid–Senior
* (Fine-tune + RLVR)* ML Engineer 2 Senior
Data Engineer 1 Mid
* (Pré-treino niche)* ML Engineer 3–4 Senior
Data Engineer 2 Mid–Senior
MLOps Engineer 1 Senior
Research Scientist 1 Senior/Staff
* (Modelo full)* ML Engineer 5–8 Senior–Staff
Data Engineer 3–4 Senior
MLOps Engineer 2–3 Senior
Research Scientist 2–3 Staff–Principal
Infrastructure Engineer 2 Senior

Competências técnicas necessárias

Área Competência Prioridade
*reino distribuído* PyTorch FSDP, DeepSpeed ZeRO, Megatron-LM Crítica
*ine-tuning* LoRA, QLoRA, TRL, Axolotl Crítica
*ata pipeline* Deduplicação, filtragem, tokenização Crítica
*LHF/RLVR* PPO, DPO, GRPO, reward modeling Alta (Nível 2+)
*nferência* vLLM, SGLang, quantização Alta
*LOps* W&B, MLflow, model versioning Alta (Nível 3+)
*nfra* Kubernetes, GPU scheduling, networking Média (Nível 3+)
*egurança* PII scrubbing, red teaming, alignment Média

Perfil de contratação

*L Engineer Senior (treino distribuído):*

  • 3+ anos com PyTorch em escala
  • Experiência com FSDPDeepSpeedMegatron
  • Já treinou ou fine-tuned modelo 7B+
  • Entende paralelismo (data, tensor, pipeline)

*ata Engineer (data pipeline):*

  • Experiência com SparkRayDask
  • Pipeline de dados em TB+ escala
  • Deduplicação, filtragem, qualidade de dados

*LOps Engineer:*

  • Model versioning, experiment tracking
  • Deploy de modelos em produção
  • Monitoring, A/B testing, canary

Custo Total de Propriedade (TCO)

Comparativo 3 anos

Abordagem Ano 1 Ano 2 Ano 3 Total 3 anos
*PI (GPT-4o, 10M tokens/dia)* $365K $365K $365K *1.1M*
*inetune selfhosted* \(50K (treino) + \)100K (GPU) $100K $100K *350K*
*ré-treino 7B* \(150K (treino) + \)100K (GPU) $100K $100K *450K*
*ré-treino 30B* \(600K (treino) + \)200K (GPU) $200K $200K *1.2M*
*n-premise GPU cluster* \(500K (hardware) + \)50K (treino) $50K (eletricidade) $50K *600K*

*onclusão:*Finetune selfhosted é o sweet spot para a maioria das empresas. Pré-treino só vale para empresas onde IA é o core do negócio.

On-premise vs Cloud

Fator Cloud GPU On-premise
*apEx* $0 \(200K–\)2M (cluster)
*pEx mensal* \(5K–\)50K \(2K–\)10K (eletricidade + refrigeração)
*lexibilidade* Alta (scale up/down) Baixa (hardware fixo)
*ead time* Minutos 2–6 meses (pedido + entrega)
*epreciação* N/A 3–5 anos
*reak-even* 12–24 meses vs cloud

*egra prática:*Se vai usar GPUs > 2 anos consecutivos, on-premise é mais barato. Se é intermitente ou incerto, cloud.


Para o Kode

Recomendação de estratégia

*urto prazo (0–6 meses):*

  1. Finetune de Qwen2.5Coder-32B com dados de código Koder
  2. RLVR com reward model baseado em testes unitários
  3. Self-hosted com 2× RTX 4090
  4. *usto: \(3K–\)10K*

*édio prazo (6–12 meses):*

  1. Pré-treino de modelo 7B focado em código + documentação
  2. Dataset: The Stack + CommonCrawl curado + dados Koder
  3. Infra: 4× A100 80GB (cloud ou on-premise)
  4. *usto: \(150K–\)300K*

*ongo prazo (12–24 meses):*

  1. Modelo 30B+ com arquitetura própria (MoE?)
  2. Multimodal (código + diagramas + docs)
  3. *usto: \(500K–\)1.5M*

Orçamento sugerido

Item Ano 1 Ano 2 Ano 3
Fine-tune + RLVR $10K $15K $20K
GPUs cloud (treino) $50K $100K $150K
Dataset + data pipeline $10K $20K $30K
Equipe (2 ML engineers) $300K $360K $420K
*otal* *370K* *495K* *620K*

Referências

Recurso Descrição
SemiAnalysis — AI Infrastructure Relatórios de custo GPU, comparativo de provedores
Epoch AI — Training compute trends Dados históricos de compute por modelo
Lambda Labs pricing Preços de GPU on-demand
CoreWeave pricing Preços alternativos de GPU
HuggingFace — Open LLM cost calculator Estimativa de custo de treino

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/04-treinamento/economia.md