Economia
Economia e Estratégia de IA
Custo de treino por escala, build vs fine-tune vs API, roadmap de modelo, competências necessárias. Atualizado em abril de 2026.
Visão Geral
Construir um LLM próprio é uma decisão econômica antes de ser técnica. O custo total varia em ordens de magnitude dependendo da escala, e a estratégia certa depende do caso de uso.
Este documento responde:
- Quanto custa treinar em cada escala?
- Quando vale a pena construir do zero vs fine-tune vs usar API?
- Qual o roadmap ideal para evoluir um modelo próprio?
- Que equipe e competências são necessárias?
Custo de Treino por Escala
Pré-treino from scratch
| Escala | Parâmetros | Tokens de treino | GPU-hours A100 | Custo USD | Custo BRL* |
|---|---|---|---|---|---|
| *ano* | 100M | 10B | ~500 | $1.5K | R$ 8K |
| *equeno* | 1B | 100B | ~5.000 | $15K | R$ 85K |
| *édio* | 7B | 1T | ~50.000 | $150K | R$ 850K |
| *rande* | 30B | 3T | ~200.000 | $600K | R$ 3.4M |
| *rontier* | 70B | 6T | ~500.000 | $1.5M | R$ 8.5M |
| *tate |
175B+ | 10T+ | ~2M+ | $5M+ | R$ 28M+ |
* Taxa de R$ 5.70/USD, valores aproximados de cloud (Lambda Labs, CoreWeave). On-premise pode ser 30–50% mais barato em TCO de 3 anos.
Detalhamento do custo de GPU
| Provedor | A100 80GB/hora | H100/hora | RTX 4090/hora |
|---|---|---|---|
| Lambda Labs | $2.80 | $4.50 | $0.80 |
| CoreWeave | $2.50 | $4.20 | — |
| AWS (p4d) | $32.77 | — | — |
| GCP (A2) | $3.67 | — | — |
| Azure (ND96) | $33.00 | — | — |
| *n-premise* | *0.50–1.00* | *1.50–2.50* | *0.10–0.20* |
*ota:*AWSGCPAzure são 10–15× mais caros que provedores especializados em GPU. Para treino de LLM, sempre usar LambdaCoreWeaveRunPod ou on-premise.
Fine-tuning (QLoRA/LoRA)
| Modelo base | Fine-tune em | GPU-hours A100 | Custo USD |
|---|---|---|---|
| Llama |
10K exemplos SFT | ~20 | $50 |
| Llama |
100K exemplos SFT | ~100 | $280 |
| Qwen2.5 |
50K exemplos SFT | ~200 | $560 |
| Qwen2.5 |
500K exemplos SFT + DPO | ~1.000 | $2.800 |
| DeepSeek |
1M exemplos RLVR | ~5.000 | $14.000 |
*inetuning é 100–1000× mais barato que prétreino.*
Build vs Fine-Tune vs API
Matriz de decisão
| Fator | API (OpenAI/Anthropic) | Fine |
Build do zero |
|---|---|---|---|
| *usto inicial* | $0 | \(500–\)15K | \(150K–\)5M+ |
| *usto por uso* | Alto ($/token) | Baixo (self-hosted) | Muito baixo |
| *ustomização* | Nenhuma | Alta | Total |
| *rivacidade* | Dados vão para o provider | Self-hosted | Self-hosted |
| *atência* | 200–1000ms | 50–300ms (local) | 50–300ms (local) |
| *endor lock-in* | Alto | Baixo | Nenhum |
| *ime to production* | 1 dia | 1–4 semanas | 3–12 meses |
| *anutenção* | Zero | Baixa | Alta |
Quando usar cada abordagem
API (GPT-4o, Claude, Gemini)
*ale quando:*
- Prototipando um produto (validar demanda antes de investir)
- O caso de uso não é core do negócio
- Não há dados sensíveis
- O volume de uso é baixo (< 1M tokens/dia)
*ão vale quando:*
- O produto É a IA (lock-in é risco existencial)
- Dados sensíveis (saúde, jurídico, financeiro)
- Volume alto (custo mensal explode)
- Latência crítica (< 100ms)
FineTune (modelo opensource)
*ale quando:*
- O caso de uso é core mas não justifica pré-treino
- Precisa de customização de domínio (código, jurídico, médico)
- Quer privacidade sem custo de pré-treino
- Tem dados proprietários de qualidade
*ão vale quando:*
- O modelo base já resolve 95% dos casos
- Não tem dados de qualidade para fine-tune
- Precisa de capacidades que o modelo base não tem (ex: raciocínio matemático avançado)
Build do zero
*ale quando:*
- A IA é o produto principal da empresa
- Precisa de capacidades que nenhum modelo existente tem
- Tem orçamento e equipe para 6–12 meses de desenvolvimento
- Quer diferenciação competitiva sustentável
*ão vale quando:*
- É a primeira vez construindo IA (começar com fine-tune)
- O mercado está evoluindo rápido demais (modelo fica obsoleto)
- Não tem dados proprietários suficientes
Recomendação para a Koder
*ase 1 (0–3 meses): API + Fine-tune*
- Usar API para prototipar produtos
- Fine
tune de Qwen2.5Coder-32B para o Kode (coding assistant) - Custo: \(500–\)3K
*ase 2 (3–9 meses): Fine-tune avançado*
- Fine-tune com RLVR (reinforcement learning from verifier rewards)
- Construir dataset proprietário de código Koder
- Treinar reward model próprio
- Custo: \(5K–\)30K
*ase 3 (9–18 meses): Modelo próprio*
- Pré-treino de modelo 7–30B focado em código + linguagem natural
- Dataset de 1–3T tokens (The Stack + CommonCrawl curado + dados Koder)
- Custo: \(150K–\)600K
Roadmap de Modelo
Maturity model
Nível 0: API externa
→ GPT-4o, Claude, Gemini
→ Zero controle, máximo vendor lock-in
Nível 1: Fine-tune de modelo open
→ Llama-3.1-8B ou Qwen2.5-Coder-32B fine-tuned
→ Customização de domínio, self-hosted
→ 1–4 semanas para produzir
Nível 2: Fine-tune avançado + RLVR
→ SFT + DPO + RLVR com reward model próprio
→ Alinhado com preferência do usuário Koder
→ 1–3 meses
Nível 3: Pré-treino de modelo de nicho
→ Modelo 7–13B pré-treinado em código + docs técnicas
→ Diferenciação em coding tasks
→ 3–6 meses
Nível 4: Modelo próprio full-stack
→ Modelo 30B+ pré-treinado do zero
→ Arquitetura própria (ex: MoE, hybrid)
→ Diferenciação sustentável
→ 6–18 mesesQuando escalar
| Sinal | Ação |
|---|---|
| API custa > $5K/mês | Migrar para fine |
| Fine-tune não resolve 20% dos casos | Adicionar RLVR ou aumentar modelo base |
| Fine-tune custa > $20K/mês em GPU | Considerar pré-treino de modelo menor |
| Concorrentes lançam modelo próprio | Acelerar roadmap |
| Dados proprietários > 100B tokens | Pré-treino justificado |
Equipe e Competências
Equipe mínima para cada nível
| Nível | Papel | Qtde | Senioridade |
|---|---|---|---|
| * (API)* | ML Engineer | 1 | Mid |
| * (Fine-tune)* | ML Engineer | 1–2 | Mid–Senior |
| * (Fine-tune + RLVR)* | ML Engineer | 2 | Senior |
| Data Engineer | 1 | Mid | |
| * (Pré-treino niche)* | ML Engineer | 3–4 | Senior |
| Data Engineer | 2 | Mid–Senior | |
| MLOps Engineer | 1 | Senior | |
| Research Scientist | 1 | Senior/Staff | |
| * (Modelo full)* | ML Engineer | 5–8 | Senior–Staff |
| Data Engineer | 3–4 | Senior | |
| MLOps Engineer | 2–3 | Senior | |
| Research Scientist | 2–3 | Staff–Principal | |
| Infrastructure Engineer | 2 | Senior |
Competências técnicas necessárias
| Área | Competência | Prioridade |
|---|---|---|
| *reino distribuído* | PyTorch FSDP, DeepSpeed ZeRO, Megatron-LM | Crítica |
| *ine-tuning* | LoRA, QLoRA, TRL, Axolotl | Crítica |
| *ata pipeline* | Deduplicação, filtragem, tokenização | Crítica |
| *LHF/RLVR* | PPO, DPO, GRPO, reward modeling | Alta (Nível 2+) |
| *nferência* | vLLM, SGLang, quantização | Alta |
| *LOps* | W&B, MLflow, model versioning | Alta (Nível 3+) |
| *nfra* | Kubernetes, GPU scheduling, networking | Média (Nível 3+) |
| *egurança* | PII scrubbing, red teaming, alignment | Média |
Perfil de contratação
*L Engineer Senior (treino distribuído):*
- 3+ anos com PyTorch em escala
- Experiência com FSDPDeepSpeedMegatron
- Já treinou ou fine-tuned modelo 7B+
- Entende paralelismo (data, tensor, pipeline)
*ata Engineer (data pipeline):*
- Experiência com SparkRayDask
- Pipeline de dados em TB+ escala
- Deduplicação, filtragem, qualidade de dados
*LOps Engineer:*
- Model versioning, experiment tracking
- Deploy de modelos em produção
- Monitoring, A/B testing, canary
Custo Total de Propriedade (TCO)
Comparativo 3 anos
| Abordagem | Ano 1 | Ano 2 | Ano 3 | Total 3 anos |
|---|---|---|---|---|
| *PI (GPT-4o, 10M tokens/dia)* | $365K | $365K | $365K | *1.1M* |
| *ine |
\(50K (treino) + \)100K (GPU) | $100K | $100K | *350K* |
| *ré-treino 7B* | \(150K (treino) + \)100K (GPU) | $100K | $100K | *450K* |
| *ré-treino 30B* | \(600K (treino) + \)200K (GPU) | $200K | $200K | *1.2M* |
| *n-premise GPU cluster* | \(500K (hardware) + \)50K (treino) | $50K (eletricidade) | $50K | *600K* |
*onclusão:*Finetune selfhosted é o sweet spot para a maioria das empresas. Pré-treino só vale para empresas onde IA é o core do negócio.
On-premise vs Cloud
| Fator | Cloud GPU | On-premise |
|---|---|---|
| *apEx* | $0 | \(200K–\)2M (cluster) |
| *pEx mensal* | \(5K–\)50K | \(2K–\)10K (eletricidade + refrigeração) |
| *lexibilidade* | Alta (scale up/down) | Baixa (hardware fixo) |
| *ead time* | Minutos | 2–6 meses (pedido + entrega) |
| *epreciação* | N/A | 3–5 anos |
| *reak-even* | — | 12–24 meses vs cloud |
*egra prática:*Se vai usar GPUs > 2 anos consecutivos, on-premise é mais barato. Se é intermitente ou incerto, cloud.
Para o Kode
Recomendação de estratégia
*urto prazo (0–6 meses):*
- Fine
tune de Qwen2.5Coder-32B com dados de código Koder - RLVR com reward model baseado em testes unitários
- Self-hosted com 2× RTX 4090
- *usto: \(3K–\)10K*
*édio prazo (6–12 meses):*
- Pré-treino de modelo 7B focado em código + documentação
- Dataset: The Stack + CommonCrawl curado + dados Koder
- Infra: 4× A100 80GB (cloud ou on-premise)
- *usto: \(150K–\)300K*
*ongo prazo (12–24 meses):*
- Modelo 30B+ com arquitetura própria (MoE?)
- Multimodal (código + diagramas + docs)
- *usto: \(500K–\)1.5M*
Orçamento sugerido
| Item | Ano 1 | Ano 2 | Ano 3 |
|---|---|---|---|
| Fine-tune + RLVR | $10K | $15K | $20K |
| GPUs cloud (treino) | $50K | $100K | $150K |
| Dataset + data pipeline | $10K | $20K | $30K |
| Equipe (2 ML engineers) | $300K | $360K | $420K |
| *otal* | *370K* | *495K* | *620K* |
Referências
| Recurso | Descrição |
|---|---|
| SemiAnalysis — AI Infrastructure | Relatórios de custo GPU, comparativo de provedores |
| Epoch AI — Training compute trends | Dados históricos de compute por modelo |
| Lambda Labs pricing | Preços de GPU on-demand |
| CoreWeave pricing | Preços alternativos de GPU |
| HuggingFace — Open LLM cost calculator | Estimativa de custo de treino |