Datasets

Datasets de Treinamento

Datasets de Pré-Treino — Texto Geral

Dataset	Tamanho	Licença	Fonte	Pontos Fortes
ineWeb	15T tokens	Open	96 snapshots Common Crawl	Melhor dataset geral open-source; supera C4, Pile, RedPajama
ineWeb-Edu	1.3T tokens	Open	FineWeb filtrado	Melhor para MMLU/ARC; conteúdo educacional de alta qualidade
edPajama-V2	30T tokens	Mixed	Common Crawl	Maior dataset open; qualidade variável
edPajama-V1	1.2T tokens	Mixed	CC + GitHub + arXiv + Wikipedia	Reprodutível; composição: 878B CC, 59B GitHub, 28B arXiv
limPajama	627B tokens	Open	RedPajama-V1 deduplicado	49.6% menor que original; melhor qualidade por token
olma	3T tokens	Open	Variado	Acessível para pesquisa de dados
he Pile	886GB (570B tokens)	Open	22 sub-datasets	EleutherAI; base histórica; diversidade temática
OOTS	1.6TB	Mixed	498 datasets	59 idiomas; multilingual; curado pela comunidade (BLOOM)
4	175B tokens	CC-BY	1 snapshot Common Crawl	Amplamente usado; filtragem extensa
CLM	240T tokens pool	Open	Common Crawl	Benchmark testbed para curadoria; 7B em 64% MMLU

*inks:*

FineWeb: huggingface.codatasetsHuggingFaceFW/fineweb
FineWeb~~Edu: huggingface.codatasetsHuggingFaceFW/fineweb~~edu
RedPajama: huggingface.codatasetstogethercomputer/RedPajama~~Data~~V2
Dolma: huggingface.codatasetsallenai/dolma

Datasets de Código

Dataset	Tamanho	Linguagens	Licença	Fonte	Uso
he Stack v2	67.5TB	604+	Permissiva	104M repos GitHub (Software Heritage)	Pré-treino código
he Stack v1	3.1TB	30+	Permissiva	137M repos GitHub (2015–2022)	Pré-treino código (mais antigo)
itHub Archive	Contínuo	Multi	Varies	GH events (commits, PRs)	Metadados + diffs
ommitPack	—	Multi	Varies	diff + commit message	Treino de diff/review
WE-bench Train	—	Python	Varies	Issues/PRs reais	Agent training
PPS	5K problemas	Python	Open	Competições	Treino de coding contests
odeContests	—	Multi	Open	Codeforces + AtCoder	Competitive programming
iveCodeBench	Contínuo	Multi	Open	Problemas recentes	Eval sem contaminação

Datasets de Matemática

Dataset	Tamanho	Tipo	Licença	Uso
penMathInstruct-1	1.8M pares	Sintético (Mixtral)	Permissiva	SFT para matemática
penMathInstruct-2	Maior	Sintético (Llama 3)	Permissiva	Versão expandida
etaMathQA	—	Bootstrap	Open	Variações de problemas matemáticos
ATH dataset	12.5K problemas	Competições	Open	Eval + fine-tuning (níveis 1–5)
SM8K	8.5K problemas	Grade school	Open	Fine-tuning raciocínio matemático básico
uminaMath	860K problemas	Competições	Open	Treino de raciocínio matemático avançado

Datasets de Instrução e Chat

Dataset	Tamanho	Licença	Uso
ltraChat	1.5M diálogos	Open	Multi-turn conversation training
izardLM	250K instruções	Open	Instruções complexas (Evol-Instruct)
rca-Math	200K problemas	Open	Matemática via Agent-Instruct
hareGPT	Variado	Mixed	Conversas ChatGPT reais compartilhadas
penHermes 2.5	900K	Open	Instrução geral; alta qualidade
lpaca	52K	Non-commercial	Self~~Instruct original (GPT~~3.5 gerado)

Datasets de Multilingual

Dataset	Idiomas	Tokens	Licença
ROOTS	59 (46 nat. + 13 prog.)	—	Mixed
BLOOM	46	—	BigScience RAIL
mC4	101	—	CC-BY
CulturaX	167	6.3T	Mixed
Qwen 3.5 training	201	—	—

Datasets Multimodais

Dataset	Tipo	Tamanho	Licença	Uso
LAION-5B	Imagem-texto	5B pares	Open	Pré-treino de modelos de visão
CC3M/CC12M	Imagem-texto	3M/12M	CC-BY	Conceitual; captions de imagens
WIT	Imagem-texto	37M	Apache	Wikipedia image-text
COCO	Detecção/segmentação	330K imagens	CC-BY	Benchmark clássico de visão

Datasets de Avaliação (Não para Treino)

Nunca incluir esses datasets no treino — contaminação invalida benchmarks.

*MLU:*15K questões múltipla escolha (57 assuntos)
*umanEval:*164 problemas Python
*WE-bench Verified:*500 issues GitHub validados por humanos
*ATH-500:*Subconjunto de 500 problemas de competições
*IME 2024/2025:*30 problemas de nível olímpico

Qualidade > Quantidade

Descoberta	Fonte
FineWeb-Edu (1.3T) > RedPajama (1.2T) em MMLU	HuggingFace, 2024
Phi-1 (7B tokens sintéticos) supera modelos treinados em >1T tokens em código	Microsoft Phi, 2023
SlimPajama (627B) > RedPajama (1.2T) — deduplicação importa	Together AI, 2023
Chinchilla: 20 tokens/parâmetro é ótimo de compute	DeepMind, 2022