Economia

Economia e Estratégia de IA

Custo de treino por escala, build vs fine-tune vs API, roadmap de modelo, competências necessárias. Atualizado em abril de 2026.

Visão Geral

Construir um LLM próprio é uma decisão econômica antes de ser técnica. O custo total varia em ordens de magnitude dependendo da escala, e a estratégia certa depende do caso de uso.

Este documento responde:

Quanto custa treinar em cada escala?
Quando vale a pena construir do zero vs fine-tune vs usar API?
Qual o roadmap ideal para evoluir um modelo próprio?
Que equipe e competências são necessárias?

Custo de Treino por Escala

Pré-treino from scratch

Escala	Parâmetros	Tokens de treino	GPU-hours A100	Custo USD	Custo BRL*
ano	100M	10B	~500	$1.5K	R$ 8K
equeno	1B	100B	~5.000	$15K	R$ 85K
édio	7B	1T	~50.000	$150K	R$ 850K
rande	30B	3T	~200.000	$600K	R$ 3.4M
rontier	70B	6T	~500.000	$1.5M	R$ 8.5M
tateofart	175B+	10T+	~2M+	$5M+	R$ 28M+

* Taxa de R$ 5.70/USD, valores aproximados de cloud (Lambda Labs, CoreWeave). On-premise pode ser 30–50% mais barato em TCO de 3 anos.

Detalhamento do custo de GPU

Provedor	A100 80GB/hora	H100/hora	RTX 4090/hora
Lambda Labs	$2.80	$4.50	$0.80
CoreWeave	$2.50	$4.20	—
AWS (p4d)	$32.77	—	—
GCP (A2)	$3.67	—	—
Azure (ND96)	$33.00	—	—
n-premise	0.50–1.00	1.50–2.50	0.10–0.20

*ota:*AWSGCPAzure são 10–15× mais caros que provedores especializados em GPU. Para treino de LLM, sempre usar LambdaCoreWeaveRunPod ou on-premise.

Fine-tuning (QLoRA/LoRA)

Modelo base	Fine-tune em	GPU-hours A100	Custo USD
Llama~~3.1~~8B	10K exemplos SFT	~20	$50
Llama~~3.1~~8B	100K exemplos SFT	~100	$280
Qwen2.5~~Coder~~32B	50K exemplos SFT	~200	$560
Qwen2.5~~Coder~~32B	500K exemplos SFT + DPO	~1.000	$2.800
DeepSeekR170B	1M exemplos RLVR	~5.000	$14.000

*ine~~tuning é 100–1000× mais barato que pré~~treino.*

Build vs Fine-Tune vs API

Matriz de decisão

Fator	API (OpenAI/Anthropic)	Fine~~Tune (open~~source)	Build do zero
usto inicial	$0	$500–$15K	$150K–$5M+
usto por uso	Alto ($/token)	Baixo (self-hosted)	Muito baixo
ustomização	Nenhuma	Alta	Total
rivacidade	Dados vão para o provider	Self-hosted	Self-hosted
atência	200–1000ms	50–300ms (local)	50–300ms (local)
endor lock-in	Alto	Baixo	Nenhum
ime to production	1 dia	1–4 semanas	3–12 meses
anutenção	Zero	Baixa	Alta

Quando usar cada abordagem

API (GPT-4o, Claude, Gemini)

*ale quando:*

Prototipando um produto (validar demanda antes de investir)
O caso de uso não é core do negócio
Não há dados sensíveis
O volume de uso é baixo (< 1M tokens/dia)

*ão vale quando:*

O produto É a IA (lock-in é risco existencial)
Dados sensíveis (saúde, jurídico, financeiro)
Volume alto (custo mensal explode)
Latência crítica (< 100ms)

FineTune (modelo opensource)

*ale quando:*

O caso de uso é core mas não justifica pré-treino
Precisa de customização de domínio (código, jurídico, médico)
Quer privacidade sem custo de pré-treino
Tem dados proprietários de qualidade

*ão vale quando:*

O modelo base já resolve 95% dos casos
Não tem dados de qualidade para fine-tune
Precisa de capacidades que o modelo base não tem (ex: raciocínio matemático avançado)

Build do zero

*ale quando:*

A IA é o produto principal da empresa
Precisa de capacidades que nenhum modelo existente tem
Tem orçamento e equipe para 6–12 meses de desenvolvimento
Quer diferenciação competitiva sustentável

*ão vale quando:*

É a primeira vez construindo IA (começar com fine-tune)
O mercado está evoluindo rápido demais (modelo fica obsoleto)
Não tem dados proprietários suficientes

Recomendação para a Koder

*ase 1 (0–3 meses): API + Fine-tune*

Usar API para prototipar produtos
Fine~~tune de Qwen2.5~~Coder-32B para o Kode (coding assistant)
Custo: $500–$3K

*ase 2 (3–9 meses): Fine-tune avançado*

Fine-tune com RLVR (reinforcement learning from verifier rewards)
Construir dataset proprietário de código Koder
Treinar reward model próprio
Custo: $5K–$30K

*ase 3 (9–18 meses): Modelo próprio*

Pré-treino de modelo 7–30B focado em código + linguagem natural
Dataset de 1–3T tokens (The Stack + CommonCrawl curado + dados Koder)
Custo: $150K–$600K

Roadmap de Modelo

Maturity model

Nível 0: API externa
  → GPT-4o, Claude, Gemini
  → Zero controle, máximo vendor lock-in

Nível 1: Fine-tune de modelo open
  → Llama-3.1-8B ou Qwen2.5-Coder-32B fine-tuned
  → Customização de domínio, self-hosted
  → 1–4 semanas para produzir

Nível 2: Fine-tune avançado + RLVR
  → SFT + DPO + RLVR com reward model próprio
  → Alinhado com preferência do usuário Koder
  → 1–3 meses

Nível 3: Pré-treino de modelo de nicho
  → Modelo 7–13B pré-treinado em código + docs técnicas
  → Diferenciação em coding tasks
  → 3–6 meses

Nível 4: Modelo próprio full-stack
  → Modelo 30B+ pré-treinado do zero
  → Arquitetura própria (ex: MoE, hybrid)
  → Diferenciação sustentável
  → 6–18 meses

Quando escalar

Sinal	Ação
API custa > $5K/mês	Migrar para fine~~tune self~~hosted
Fine-tune não resolve 20% dos casos	Adicionar RLVR ou aumentar modelo base
Fine-tune custa > $20K/mês em GPU	Considerar pré-treino de modelo menor
Concorrentes lançam modelo próprio	Acelerar roadmap
Dados proprietários > 100B tokens	Pré-treino justificado

Equipe e Competências

Equipe mínima para cada nível

Nível	Papel	Qtde	Senioridade
* (API)*	ML Engineer	1	Mid
* (Fine-tune)*	ML Engineer	1–2	Mid–Senior
* (Fine-tune + RLVR)*	ML Engineer	2	Senior
	Data Engineer	1	Mid
* (Pré-treino niche)*	ML Engineer	3–4	Senior
	Data Engineer	2	Mid–Senior
	MLOps Engineer	1	Senior
	Research Scientist	1	Senior/Staff
* (Modelo full)*	ML Engineer	5–8	Senior–Staff
	Data Engineer	3–4	Senior
	MLOps Engineer	2–3	Senior
	Research Scientist	2–3	Staff–Principal
	Infrastructure Engineer	2	Senior

Competências técnicas necessárias

Área	Competência	Prioridade
reino distribuído	PyTorch FSDP, DeepSpeed ZeRO, Megatron-LM	Crítica
ine-tuning	LoRA, QLoRA, TRL, Axolotl	Crítica
ata pipeline	Deduplicação, filtragem, tokenização	Crítica
LHF/RLVR	PPO, DPO, GRPO, reward modeling	Alta (Nível 2+)
nferência	vLLM, SGLang, quantização	Alta
LOps	W&B, MLflow, model versioning	Alta (Nível 3+)
nfra	Kubernetes, GPU scheduling, networking	Média (Nível 3+)
egurança	PII scrubbing, red teaming, alignment	Média

Perfil de contratação

*L Engineer Senior (treino distribuído):*

3+ anos com PyTorch em escala
Experiência com FSDPDeepSpeedMegatron
Já treinou ou fine-tuned modelo 7B+
Entende paralelismo (data, tensor, pipeline)

*ata Engineer (data pipeline):*

Experiência com SparkRayDask
Pipeline de dados em TB+ escala
Deduplicação, filtragem, qualidade de dados

*LOps Engineer:*

Model versioning, experiment tracking
Deploy de modelos em produção
Monitoring, A/B testing, canary

Custo Total de Propriedade (TCO)

Comparativo 3 anos

Abordagem	Ano 1	Ano 2	Ano 3	Total 3 anos
PI (GPT-4o, 10M tokens/dia)	$365K	$365K	$365K	1.1M
ine~~tune self~~hosted	$50K (treino) + $100K (GPU)	$100K	$100K	350K
ré-treino 7B	$150K (treino) + $100K (GPU)	$100K	$100K	450K
ré-treino 30B	$600K (treino) + $200K (GPU)	$200K	$200K	1.2M
n-premise GPU cluster	$500K (hardware) + $50K (treino)	$50K (eletricidade)	$50K	600K

*onclusão:*Fine~~tune self~~hosted é o sweet spot para a maioria das empresas. Pré-treino só vale para empresas onde IA é o core do negócio.

On-premise vs Cloud

Fator	Cloud GPU	On-premise
apEx	$0	$200K–$2M (cluster)
pEx mensal	$5K–$50K	$2K–$10K (eletricidade + refrigeração)
lexibilidade	Alta (scale up/down)	Baixa (hardware fixo)
ead time	Minutos	2–6 meses (pedido + entrega)
epreciação	N/A	3–5 anos
reak-even	—	12–24 meses vs cloud

*egra prática:*Se vai usar GPUs > 2 anos consecutivos, on-premise é mais barato. Se é intermitente ou incerto, cloud.

Para o Kode

Recomendação de estratégia

*urto prazo (0–6 meses):*

Fine~~tune de Qwen2.5~~Coder-32B com dados de código Koder
RLVR com reward model baseado em testes unitários
Self-hosted com 2× RTX 4090
*usto: $3K–$10K*

*édio prazo (6–12 meses):*

Pré-treino de modelo 7B focado em código + documentação
Dataset: The Stack + CommonCrawl curado + dados Koder
Infra: 4× A100 80GB (cloud ou on-premise)
*usto: $150K–$300K*

*ongo prazo (12–24 meses):*

Modelo 30B+ com arquitetura própria (MoE?)
Multimodal (código + diagramas + docs)
*usto: $500K–$1.5M*

Orçamento sugerido

Item	Ano 1	Ano 2	Ano 3
Fine-tune + RLVR	$10K	$15K	$20K
GPUs cloud (treino)	$50K	$100K	$150K
Dataset + data pipeline	$10K	$20K	$30K
Equipe (2 ML engineers)	$300K	$360K	$420K
otal	370K	495K	620K

Referências

Recurso	Descrição
SemiAnalysis — AI Infrastructure	Relatórios de custo GPU, comparativo de provedores
Epoch AI — Training compute trends	Dados históricos de compute por modelo
Lambda Labs pricing	Preços de GPU on-demand
CoreWeave pricing	Preços alternativos de GPU
HuggingFace — Open LLM cost calculator	Estimativa de custo de treino

Fator	API (OpenAI/Anthropic)	Fine~~Tune (open~~source)	Build do zero
usto inicial	$0	\(500–\)15K	\(150K–\)5M+
usto por uso	Alto ($/token)	Baixo (self-hosted)	Muito baixo
ustomização	Nenhuma	Alta	Total
rivacidade	Dados vão para o provider	Self-hosted	Self-hosted
atência	200–1000ms	50–300ms (local)	50–300ms (local)
endor lock-in	Alto	Baixo	Nenhum
ime to production	1 dia	1–4 semanas	3–12 meses
anutenção	Zero	Baixa	Alta

Fator	Cloud GPU	On-premise
apEx	$0	\(200K–\)2M (cluster)
pEx mensal	\(5K–\)50K	\(2K–\)10K (eletricidade + refrigeração)
lexibilidade	Alta (scale up/down)	Baixa (hardware fixo)
ead time	Minutos	2–6 meses (pedido + entrega)
epreciação	N/A	3–5 anos
reak-even	—	12–24 meses vs cloud