Papers Fundacionais de IA/ML
Papers que definiram o campo. Ordenados cronologicamente por era.
Era 1 — Origens (1943–1970)
| Ano |
Título |
Autores |
Venue |
Contribuição |
| 1943 |
A Logical Calculus of Ideas Immanent in Nervous Activity |
McCulloch & Pitts |
Bull. Math. Biophysics |
Primeiro modelo matemático de neurônio artificial |
| 1950 |
Computing Machinery and Intelligence |
Alan Turing |
Mind |
Teste de Turing; "Can machines think?" |
| 1958 |
The Perceptron |
Frank Rosenblatt |
Psych. Review |
Primeiro algoritmo de aprendizado neural |
Era 2 — Backpropagation e Fundamentos (1986–1998)
| Ano |
Título |
Autores |
Venue |
Contribuição |
| 1986 |
Learning Representations by Back-Propagating Errors |
Rumelhart, Hinton, Williams |
Nature |
Backpropagation — treina redes multicamadas |
| 1997 |
Long Short-Term Memory |
Hochreiter & Schmidhuber |
Neural Computation |
LSTM — resolve vanishing gradient em sequências |
| 1998 |
Gradient-Based Learning Applied to Document Recognition |
LeCun et al. |
Proc. IEEE |
LeNet-5 — CNN para reconhecimento de dígitos |
Era 3 — Renascimento do Deep Learning (2006–2012)
| Ano |
Título |
Autores |
Venue |
arXiv |
Contribuição |
| 2006 |
A Fast Learning Algorithm for Deep Belief Nets |
Hinton, Osindski, Teh |
Neural Computation |
— |
Deep Belief Networks; catalisou a revolução |
| 2010 |
Rectified Linear Units Improve RBMs |
Nair & Hinton |
ICML |
— |
ReLU — padrão moderno de ativação |
| 2012 |
ImageNet Classification with Deep CNNs (AlexNet) |
Krizhevsky, Sutskever, Hinton |
NIPS |
— |
Ganhou ImageNet por margem enorme; iniciou era DL |
| 2014 |
Dropout |
Srivastava et al. |
JMLR |
— |
Regularização por desativação aleatória |
| 2014 |
Batch Normalization |
Ioffe & Szegedy |
ICML |
1502.03167 |
Normalização entre camadas; acelera treino |
Era 4 — CNNs Profundas e Detecção (2014–2016)
| Ano |
Título |
Autores |
arXiv |
Contribuição |
| 2014 |
VGGNet |
Simonyan & Zisserman |
ICLR |
— |
Profundidade com convoluções 3×3 |
| 2015 |
ResNet |
He et al. |
CVPR |
1512.03385 |
Skip connections — redes com 152+ camadas |
| 2014 |
R-CNN |
Girshick et al. |
CVPR |
1311.2524 |
Detecção baseada em regiões |
| 2015 |
Faster R-CNN |
Ren et al. |
NIPS |
1506.01497 |
Region Proposal Network; detecção em tempo real |
| 2016 |
YOLO |
Redmon et al. |
CVPR |
1506.02640 |
Detecção em única passagem; 45 FPS |
Era 5 — Sequências, Atenção e Embeddings (2013–2017)
| Ano |
Título |
Autores |
arXiv |
Contribuição |
| 2013 |
Word2Vec |
Mikolov et al. |
ICLR |
— |
Embeddings de palavras eficientes |
| 2014 |
GloVe |
Pennington, Socher, Manning |
EMNLP |
— |
Global matrix factorization + local context |
| 2014 |
Seq2Seq |
Sutskever, Vinyals, Le |
NIPS |
1409.3215 |
Encoder-decoder com LSTMs; base de NMT |
| 2014 |
Neural MT with Attention |
Bahdanau, Cho, Bengio |
ICLR |
1409.0473 |
Mecanismo de atenção — modelo foca no relevante |
| 2018 |
ELMo |
Peters et al. |
NAACL |
1802.05365 |
Embeddings contextualizados bidirecionais |
Era 6 — Modelos Generativos (2013–2020)
| Ano |
Título |
Autores |
arXiv |
Contribuição |
| 2013 |
VAE |
Kingma & Welling |
ICLR |
1312.6114 |
Autoencoders variacionais probabilísticos |
| 2014 |
GAN |
Goodfellow et al. |
NIPS |
1406.2661 |
Redes adversariais — geração realista |
| 2015 |
DCGAN |
Radford, Metz, Chintala |
ICLR |
1511.06434 |
GANs convolucionais práticas para imagens |
| 2020 |
DDPM |
Ho, Jain, Abbeel |
NIPS |
2006.11239 |
Diffusion probabilístico — base do Stable Diffusion |
| 2021 |
Score-Based SDEs |
Song et al. |
ICLR |
2011.13456 |
Framework unificado para score-based models |
| Ano |
Título |
Autores |
arXiv |
Contribuição |
| 2017 |
*ttention Is All You Need* |
Vaswani et al. |
NIPS |
*706.03762* |
* Transformer — base de todo LLM moderno* |
| 2018 |
BERT |
Devlin et al. |
NAACL |
1810.04805 |
Pré-treino bidirecional; SOTA em 11 tarefas NLU |
| 2018 |
GPT-1 |
Radford et al. |
OpenAI |
— |
Generative pre-training — transfer learning em NLP |
| 2019 |
GPT-2 |
Radford et al. |
OpenAI |
— |
1.5B params; zero-shot multitask |
| 2020 |
GPT-3 |
Brown et al. |
NIPS |
2005.14165 |
175B; in-context learning sem gradient updates |
| 2020 |
*caling Laws* |
Kaplan et al. |
OpenAI |
*001.08361* |
Power-laws entre escala, compute e dados |
| 2022 |
*hinchilla* |
Hoffmann et al. |
DeepMind |
*203.15556* |
Ótimo compute: igual escala de modelo e dados |
| Ano |
Título |
Autores |
arXiv |
Contribuição |
| 2020 |
ViT |
Dosovitskiy et al. |
ICLR |
2010.11929 |
Transformer puro para visão; patches de imagem |
| 2021 |
Swin Transformer |
Liu et al. |
ICCV |
2103.14030 |
ViT hierárquico com shifted windows; SOTA detection |
| 2021 |
CLIP |
Radford et al. |
ICML |
— |
Alinhamento imagemtexto contrastivo; zeroshot |
Era 9 — Reinforcement Learning (1988–2017)
| Ano |
Título |
Autores |
Venue |
Contribuição |
| 1988 |
TD Learning |
Sutton |
Machine Learning |
Temporal difference — base do RL moderno |
| 1992 |
Q-Learning |
Watkins & Dayan |
Machine Learning |
Off-policy TD; fundamento do DQN |
| 2013 |
DQN |
Mnih et al. |
NIPS |
Deep Q-Networks; Atari com performance humana |
| 2015 |
DQN Nature |
Mnih et al. |
Nature |
Experience replay + target networks |
| 2016 |
AlphaGo |
Silver et al. |
Nature |
MCTS + redes neurais; derrota campeão mundial |
| 2017 |
AlphaZero |
Silver et al. |
Science |
Self-play RL; SOTA em xadrez, shogi, go |
| 2017 |
PPO |
Schulman et al. |
ICLR |
1707.06347 |
Stable policy gradient; padrão em RL moderno |
Era 10 — Alinhamento e Pós-Treino (2022–2023)
| Ano |
Título |
Autores |
arXiv |
Contribuição |
| 2022 |
*hainofThought Prompting* |
Wei et al. |
NIPS |
*201.11903* |
CoT melhora raciocínio dramaticamente |
| 2022 |
Zero-Shot Reasoners |
Kojima et al. |
NIPS |
2205.11916 |
"Let's think step by step" — raciocínio zero-shot |
| 2022 |
*LHF (InstructGPT)* |
Ouyang et al. |
NIPS |
2203.02155 |
Treino com feedback humano; base do ChatGPT |
| 2022 |
*onstitutional AI* |
Bai et al. |
Anthropic |
*212.08073* |
AI feedback substitui labels humanos no alinhamento |
| 2023 |
DPO |
Rafailov et al. |
NIPS |
2305.18290 |
Direct Preference Optimization — sem reward model |
| 2023 |
ReAct |
Yao et al. |
ICLR |
2210.03629 |
Raciocínio + ação em agentes LLM |
| 2023 |
Let's Verify Step by Step |
Lightman et al. |
ICLR |
2305.20050 |
Process Reward Models para matemática |
Era 11 — Reasoning e Open-Source Frontier (2024–2026)
| Ano |
Título |
Autores |
arXiv |
Contribuição |
| 2024 |
Qwen2.5-Coder |
Hui et al. |
Alibaba |
2409.12186 |
Receita completa para modelos de código |
| 2024 |
SWE-bench |
Jimenez et al. |
ICLR |
2310.06770 |
Benchmark de issues reais do GitHub |
| 2024 |
FIM |
Bavarian et al. |
OpenAI |
2207.14255 |
Fillinthe-Middle — treino para completar código |
| 2024 |
DeepSeekMath/GRPO |
DeepSeek |
DeepSeek |
2402.03300 |
GRPO — RL sem critic model |
| 2025 |
*eepSeek-R1* |
DeepSeek |
DeepSeek |
*501.12948* |
RLVR puro; raciocínio rivalizando o1 |
| 2025 |
*urboQuant* |
Zandieh et al. |
ICLR 2026 |
*504.19874* |
Compactação KV cache 6×, 8× speedup H100 |
| 2025 |
EAGLE-3 |
SafeAILab |
NeurIPS |
2503.01840 |
Speculative decoding 2–6× mais rápido |
| *026* |
*eepSeek-V4* |
DeepSeek |
Relatório técnico abr/2026 |
— |
1M contexto; CSA reduz KV cache 10×; 80.6% SWE-bench; MIT |
Papers de Compressão e Eficiência
| Ano |
Título |
arXiv |
Contribuição |
| 2015 |
Deep Compression |
Han et al. |
ICLR |
Pruning + quantização + Huffman; 35-49× sem perda |
| 2015 |
Knowledge Distillation |
Hinton et al. |
NIPS Workshop |
Teacher-student; comprime modelos grandes |
| 2022 |
GPTQ |
Frantar et al. |
ICLR |
2210.17323 |
Quantização póstreino 34 bits para LLMs |
| 2023 |
AWQ |
Lin et al. |
MLSys 2024 |
2306.00978 |
Activation-aware weight quantization |
| 2023 |
QLoRA |
Dettmers et al. |
NIPS |
2305.14314 |
Finetuning com 4bit; 70B em RTX 3090 |
| 2024 |
BitNet b1.58 |
Ma et al. |
— |
2402.17764 |
Pesos ternários {-1,0,1}; 2.71× mais rápido |