Video 3d world models
IA em Vídeo, 3D e World Models
Geração de Vídeo
Sora (OpenAI, 2024–2025)
- *ançamento:*Fevereiro 2024 (demo); dezembro 2024 (acesso)
- *rquitetura:*Video Diffusion Transformer (DiT em espaço-tempo)
- *apacidade:*Vídeos até 1 minuto; múltiplas relações de aspecto; física coerente
- *ecanismo:*"Spacetime patches" — treats frames como tokens 3D
- *ora 2 (2025):*Maior resolução; melhor física; geração de personagens consistentes
Veo 3 / Veo 3.1 (Google DeepMind, 2025)
- *ançamento:*Google I/O 2025
- *estaque:*Geração de áudio nativo junto com vídeo (sincronização lábio-som)
- *ualidade:*Competitivo com Sora; física mais coerente em alguns casos
- *eo 3.1:*Maior resolução; efeitos sonoros realistas
HunyuanVideo (Tencent, 2024)
- *rXiv:*2412.03603
- *pen-source:*Sim; pesos públicos
- *specificações:*13B parâmetros; 720p a 5s; melhor open-source disponível
- *ualidade:*Próximo de Sora na maioria dos casos
CogVideoX (Zhipu AI / Tsinghua, 2024)
- *rXiv:*2408.06072
- *pen-source:*Sim (Apache 2.0)
- *ariantes:*2B e 5B parâmetros
LTX-Video (Lightricks, 2024)
- *pen-source:*Sim
- *estaque:*Geração muito rápida (poucos segundos em A100)
- *amanho:*2B parâmetros; boa qualidade para tamanho
Kling (Kuaishou, 2024)
- *cesso:*API; kuaishou.com/keling
- *estaque:*Física realista de faces e corpos; popular na Ásia
Runway Gen-3 Alpha (2024)
- *roprietário:*Runway ML
- *estaque:*Coerência temporal; personagens consistentes; integração com câmera virtual
Representação 3D
NeRF — Neural Radiance Fields (2020)
- *rXiv:*2003.08934 (Mildenhall et al., UC Berkeley)
- *ecanismo:*MLP que mapeia (x, y, z, θ, φ) → (cor, densidade); ray marching para render
- *esultado:*Reconstrução 3D fotorrealista a partir de múltiplas imagens
- *ariantes:*Instant
NGP (1000× mais rápido), NeRFW (in the wild), Mip-NeRF
3D Gaussian Splatting (2023)
- *rXiv:*2308.04079
- *ecanismo:*Representa cena como nuvem de Gaussianas 3D com cor e opacidade; rasterização
- *elocidade:*Render em tempo real (30+ FPS vs NeRF que é lento)
- *ualidade:*Similar ao NeRF; muito mais rápido para interatividade
- *mpacto:*Novo padrão para reconstrução 3D interativa
Shap-E (OpenAI, 2023)
- *rXiv:*2305.02463
- *ecanismo:*Diffusion de parâmetros de NeRF implícitos
- *nput:*Texto ou imagem → objeto 3D
- *pen-source:*Sim
TRELLIS (Microsoft, 2024)
- *rXiv:*2412.01506
- *ecanismo:*3D Gaussian Splatting + Mesh via flow matching
- *ualidade:*Estado da arte em geração 3D a partir de texto/imagem
Hunyuan3D-2 (Tencent, 2025)
- *ecanismo:*Multi-view diffusion + reconstrução 3D
- *pen-source:*Sim
- *esultado:*Objetos 3D de alta qualidade em segundos
Zero1to-3 / Zero123++ (Columbia, 2023)
- *rXiv:*2303.11328
- *ecanismo:*Dado 1 imagem, gera views a partir de qualquer ângulo
- *so:*Base para muitos sistemas de reconstrução 3D
World Models — Simuladores do Mundo com IA
DreamerV3 (DeepMind, 2023)
- *rXiv:*2301.04104
- *ecanismo:*Aprende modelo do mundo → planeja e age dentro do modelo (imaginação)
- *esultado:*Mastered Minecraft diamond collection sem reward shaping; funciona em 150+ domínios
- *rquitetura:*RSSM (Recurrent State Space Model) + atenção
Genie 2 (DeepMind, 2024)
- *ançamento:*Dezembro 2024
- *ecanismo:*Aprende mundos 3D interativos a partir de vídeo
- *apacidade:*Dado 1 imagem, gera mundo 3D navegável e interativo
- *esolução:*360p a 30fps por ~1 minuto com consistência
GameNGen (Google, 2024)
- *rXiv:*2408.14837
- *ecanismo:*Diffusion model que simula DOOM em tempo real (20 FPS)
- *estaque:*Primeiro jogo real simulado por rede neural em tempo real
- *rova de conceito:*Jogos como neural networks
DIAMOND / WHAM
- *esquisa:*Simulação de jogos de Atari via diffusion
- *esultado:*Aprendizado de reinforcement learning dentro do modelo aprendido
Cosmos (NVIDIA, 2025)
- *ançamento:*CES 2025 / GTC 2025
- *oco:*World Foundation Models para robótica e veículos autônomos
- *ariantes:*Cosmos-1.0 (1B a 14B parâmetros)
- *apacidade:*Geração de vídeo fisicamente consistente; re-renderização de cenas
- *pen-source:*Sim (parte dos pesos)
- *so:*Synthetic data para treinar robôs; simulação de cenários de condução
Video Understanding (Análise de Vídeo)
VideoLLaMA / Video-LLaVA
- *ecanismo:*Encoder de vídeo + LLM para QA e descrição
- *so:*Análise de conteúdo, descrição automática, busca semântica em vídeo
Gemini 2.5 Pro / Vídeo
- *apacidade:*Contexto de 1M tokens → processa vídeos de 1+ hora
- *esultado:*QA preciso sobre vídeos longos (documentários, reuniões, aulas)
Benchmarks de Vídeo
| Benchmark | Foco |
|---|---|
| Video-MME | Compreensão multimodal de vídeo |
| MVBench | 20 tarefas de vídeo |
| EgoSchema | Vídeo egocêntrico (câmera na cabeça) |
| ActivityNet-QA | QA sobre atividades em vídeo |
| YouCook2 | Receitas em vídeo; descrição de steps |
Tabela Comparativa de Geração de Vídeo (2025)
| Sistema | Duração máx | Resolução | Audio | Open-source |
|---|---|---|---|---|
| Sora 2 | 60s | 1080p | Não | Não |
| Veo 3.1 | 60s | 1080p | Sim | Não |
| HunyuanVideo | 5s | 720p | Não | Sim |
| Runway Gen-3 | 10s | 1080p | Não | Não |
| Kling 2.0 | 30s | 1080p | Parcial | Não |
| LTX-Video | 5s | 720p | Não | Sim |