Datasets

Datasets de Treinamento

Datasets de Pré-Treino — Texto Geral

Dataset Tamanho Licença Fonte Pontos Fortes
*ineWeb* 15T tokens Open 96 snapshots Common Crawl Melhor dataset geral open-source; supera C4, Pile, RedPajama
*ineWeb-Edu* 1.3T tokens Open FineWeb filtrado Melhor para MMLU/ARC; conteúdo educacional de alta qualidade
*edPajama-V2* 30T tokens Mixed Common Crawl Maior dataset open; qualidade variável
*edPajama-V1* 1.2T tokens Mixed CC + GitHub + arXiv + Wikipedia Reprodutível; composição: 878B CC, 59B GitHub, 28B arXiv
*limPajama* 627B tokens Open RedPajama-V1 deduplicado 49.6% menor que original; melhor qualidade por token
*olma* 3T tokens Open Variado Acessível para pesquisa de dados
*he Pile* 886GB (570B tokens) Open 22 sub-datasets EleutherAI; base histórica; diversidade temática
*OOTS* 1.6TB Mixed 498 datasets 59 idiomas; multilingual; curado pela comunidade (BLOOM)
*4* 175B tokens CC-BY 1 snapshot Common Crawl Amplamente usado; filtragem extensa
*CLM* 240T tokens pool Open Common Crawl Benchmark testbed para curadoria; 7B em 64% MMLU

*inks:*

  • FineWeb: huggingface.codatasetsHuggingFaceFW/fineweb
  • FineWebEdu: huggingface.codatasetsHuggingFaceFW/finewebedu
  • RedPajama: huggingface.codatasetstogethercomputer/RedPajamaDataV2
  • Dolma: huggingface.codatasetsallenai/dolma

Datasets de Código

Dataset Tamanho Linguagens Licença Fonte Uso
*he Stack v2* 67.5TB 604+ Permissiva 104M repos GitHub (Software Heritage) Pré-treino código
*he Stack v1* 3.1TB 30+ Permissiva 137M repos GitHub (2015–2022) Pré-treino código (mais antigo)
*itHub Archive* Contínuo Multi Varies GH events (commits, PRs) Metadados + diffs
*ommitPack* Multi Varies diff + commit message Treino de diff/review
*WE-bench Train* Python Varies Issues/PRs reais Agent training
*PPS* 5K problemas Python Open Competições Treino de coding contests
*odeContests* Multi Open Codeforces + AtCoder Competitive programming
*iveCodeBench* Contínuo Multi Open Problemas recentes Eval sem contaminação

Datasets de Matemática

Dataset Tamanho Tipo Licença Uso
*penMathInstruct-1* 1.8M pares Sintético (Mixtral) Permissiva SFT para matemática
*penMathInstruct-2* Maior Sintético (Llama 3) Permissiva Versão expandida
*etaMathQA* Bootstrap Open Variações de problemas matemáticos
*ATH dataset* 12.5K problemas Competições Open Eval + fine-tuning (níveis 1–5)
*SM8K* 8.5K problemas Grade school Open Fine-tuning raciocínio matemático básico
*uminaMath* 860K problemas Competições Open Treino de raciocínio matemático avançado

Datasets de Instrução e Chat

Dataset Tamanho Licença Uso
*ltraChat* 1.5M diálogos Open Multi-turn conversation training
*izardLM* 250K instruções Open Instruções complexas (Evol-Instruct)
*rca-Math* 200K problemas Open Matemática via Agent-Instruct
*hareGPT* Variado Mixed Conversas ChatGPT reais compartilhadas
*penHermes 2.5* 900K Open Instrução geral; alta qualidade
*lpaca* 52K Non-commercial SelfInstruct original (GPT3.5 gerado)

Datasets de Multilingual

Dataset Idiomas Tokens Licença
ROOTS 59 (46 nat. + 13 prog.) Mixed
BLOOM 46 BigScience RAIL
mC4 101 CC-BY
CulturaX 167 6.3T Mixed
Qwen 3.5 training 201

Datasets Multimodais

Dataset Tipo Tamanho Licença Uso
LAION-5B Imagem-texto 5B pares Open Pré-treino de modelos de visão
CC3M/CC12M Imagem-texto 3M/12M CC-BY Conceitual; captions de imagens
WIT Imagem-texto 37M Apache Wikipedia image-text
COCO Detecção/segmentação 330K imagens CC-BY Benchmark clássico de visão

Datasets de Avaliação (Não para Treino)

Nunca incluir esses datasets no treino — contaminação invalida benchmarks.

  • *MLU:*15K questões múltipla escolha (57 assuntos)
  • *umanEval:*164 problemas Python
  • *WE-bench Verified:*500 issues GitHub validados por humanos
  • *ATH-500:*Subconjunto de 500 problemas de competições
  • *IME 2024/2025:*30 problemas de nível olímpico

Qualidade > Quantidade

Descoberta Fonte
FineWeb-Edu (1.3T) > RedPajama (1.2T) em MMLU HuggingFace, 2024
Phi-1 (7B tokens sintéticos) supera modelos treinados em >1T tokens em código Microsoft Phi, 2023
SlimPajama (627B) > RedPajama (1.2T) — deduplicação importa Together AI, 2023
Chinchilla: 20 tokens/parâmetro é ótimo de compute DeepMind, 2022

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/04-treinamento/datasets.md