Datasets de Treinamento
Datasets de Pré-Treino — Texto Geral
| Dataset |
Tamanho |
Licença |
Fonte |
Pontos Fortes |
| *ineWeb* |
15T tokens |
Open |
96 snapshots Common Crawl |
Melhor dataset geral open-source; supera C4, Pile, RedPajama |
| *ineWeb-Edu* |
1.3T tokens |
Open |
FineWeb filtrado |
Melhor para MMLU/ARC; conteúdo educacional de alta qualidade |
| *edPajama-V2* |
30T tokens |
Mixed |
Common Crawl |
Maior dataset open; qualidade variável |
| *edPajama-V1* |
1.2T tokens |
Mixed |
CC + GitHub + arXiv + Wikipedia |
Reprodutível; composição: 878B CC, 59B GitHub, 28B arXiv |
| *limPajama* |
627B tokens |
Open |
RedPajama-V1 deduplicado |
49.6% menor que original; melhor qualidade por token |
| *olma* |
3T tokens |
Open |
Variado |
Acessível para pesquisa de dados |
| *he Pile* |
886GB (570B tokens) |
Open |
22 sub-datasets |
EleutherAI; base histórica; diversidade temática |
| *OOTS* |
1.6TB |
Mixed |
498 datasets |
59 idiomas; multilingual; curado pela comunidade (BLOOM) |
| *4* |
175B tokens |
CC-BY |
1 snapshot Common Crawl |
Amplamente usado; filtragem extensa |
| *CLM* |
240T tokens pool |
Open |
Common Crawl |
Benchmark testbed para curadoria; 7B em 64% MMLU |
*inks:*
- FineWeb: huggingface.codatasetsHuggingFaceFW/fineweb
- FineWeb
Edu: huggingface.codatasetsHuggingFaceFW/finewebedu
- RedPajama: huggingface.codatasetstogethercomputer/RedPajama
DataV2
- Dolma: huggingface.codatasetsallenai/dolma
Datasets de Código
| Dataset |
Tamanho |
Linguagens |
Licença |
Fonte |
Uso |
| *he Stack v2* |
67.5TB |
604+ |
Permissiva |
104M repos GitHub (Software Heritage) |
Pré-treino código |
| *he Stack v1* |
3.1TB |
30+ |
Permissiva |
137M repos GitHub (2015–2022) |
Pré-treino código (mais antigo) |
| *itHub Archive* |
Contínuo |
Multi |
Varies |
GH events (commits, PRs) |
Metadados + diffs |
| *ommitPack* |
— |
Multi |
Varies |
diff + commit message |
Treino de diff/review |
| *WE-bench Train* |
— |
Python |
Varies |
Issues/PRs reais |
Agent training |
| *PPS* |
5K problemas |
Python |
Open |
Competições |
Treino de coding contests |
| *odeContests* |
— |
Multi |
Open |
Codeforces + AtCoder |
Competitive programming |
| *iveCodeBench* |
Contínuo |
Multi |
Open |
Problemas recentes |
Eval sem contaminação |
Datasets de Matemática
| Dataset |
Tamanho |
Tipo |
Licença |
Uso |
| *penMathInstruct-1* |
1.8M pares |
Sintético (Mixtral) |
Permissiva |
SFT para matemática |
| *penMathInstruct-2* |
Maior |
Sintético (Llama 3) |
Permissiva |
Versão expandida |
| *etaMathQA* |
— |
Bootstrap |
Open |
Variações de problemas matemáticos |
| *ATH dataset* |
12.5K problemas |
Competições |
Open |
Eval + fine-tuning (níveis 1–5) |
| *SM8K* |
8.5K problemas |
Grade school |
Open |
Fine-tuning raciocínio matemático básico |
| *uminaMath* |
860K problemas |
Competições |
Open |
Treino de raciocínio matemático avançado |
Datasets de Instrução e Chat
| Dataset |
Tamanho |
Licença |
Uso |
| *ltraChat* |
1.5M diálogos |
Open |
Multi-turn conversation training |
| *izardLM* |
250K instruções |
Open |
Instruções complexas (Evol-Instruct) |
| *rca-Math* |
200K problemas |
Open |
Matemática via Agent-Instruct |
| *hareGPT* |
Variado |
Mixed |
Conversas ChatGPT reais compartilhadas |
| *penHermes 2.5* |
900K |
Open |
Instrução geral; alta qualidade |
| *lpaca* |
52K |
Non-commercial |
SelfInstruct original (GPT3.5 gerado) |
Datasets de Multilingual
| Dataset |
Idiomas |
Tokens |
Licença |
| ROOTS |
59 (46 nat. + 13 prog.) |
— |
Mixed |
| BLOOM |
46 |
— |
BigScience RAIL |
| mC4 |
101 |
— |
CC-BY |
| CulturaX |
167 |
6.3T |
Mixed |
| Qwen 3.5 training |
201 |
— |
— |
Datasets Multimodais
| Dataset |
Tipo |
Tamanho |
Licença |
Uso |
| LAION-5B |
Imagem-texto |
5B pares |
Open |
Pré-treino de modelos de visão |
| CC3M/CC12M |
Imagem-texto |
3M/12M |
CC-BY |
Conceitual; captions de imagens |
| WIT |
Imagem-texto |
37M |
Apache |
Wikipedia image-text |
| COCO |
Detecção/segmentação |
330K imagens |
CC-BY |
Benchmark clássico de visão |
Datasets de Avaliação (Não para Treino)
Nunca incluir esses datasets no treino — contaminação invalida benchmarks.
- *MLU:*15K questões múltipla escolha (57 assuntos)
- *umanEval:*164 problemas Python
- *WE-bench Verified:*500 issues GitHub validados por humanos
- *ATH-500:*Subconjunto de 500 problemas de competições
- *IME 2024/2025:*30 problemas de nível olímpico
Qualidade > Quantidade
| Descoberta |
Fonte |
| FineWeb-Edu (1.3T) > RedPajama (1.2T) em MMLU |
HuggingFace, 2024 |
| Phi-1 (7B tokens sintéticos) supera modelos treinados em >1T tokens em código |
Microsoft Phi, 2023 |
| SlimPajama (627B) > RedPajama (1.2T) — deduplicação importa |
Together AI, 2023 |
| Chinchilla: 20 tokens/parâmetro é ótimo de compute |
DeepMind, 2022 |