Video 3d world models

IA em Vídeo, 3D e World Models

Geração de Vídeo

Sora (OpenAI, 2024–2025)

*ançamento:*Fevereiro 2024 (demo); dezembro 2024 (acesso)
*rquitetura:*Video Diffusion Transformer (DiT em espaço-tempo)
*apacidade:*Vídeos até 1 minuto; múltiplas relações de aspecto; física coerente
*ecanismo:*"Spacetime patches" — treats frames como tokens 3D
*ora 2 (2025):*Maior resolução; melhor física; geração de personagens consistentes

Veo 3 / Veo 3.1 (Google DeepMind, 2025)

*ançamento:*Google I/O 2025
*estaque:*Geração de áudio nativo junto com vídeo (sincronização lábio-som)
*ualidade:*Competitivo com Sora; física mais coerente em alguns casos
*eo 3.1:*Maior resolução; efeitos sonoros realistas

HunyuanVideo (Tencent, 2024)

*rXiv:*2412.03603
*pen-source:*Sim; pesos públicos
*specificações:*13B parâmetros; 720p a 5s; melhor open-source disponível
*ualidade:*Próximo de Sora na maioria dos casos

CogVideoX (Zhipu AI / Tsinghua, 2024)

*rXiv:*2408.06072
*pen-source:*Sim (Apache 2.0)
*ariantes:*2B e 5B parâmetros

LTX-Video (Lightricks, 2024)

*pen-source:*Sim
*estaque:*Geração muito rápida (poucos segundos em A100)
*amanho:*2B parâmetros; boa qualidade para tamanho

Kling (Kuaishou, 2024)

*cesso:*API; kuaishou.com/keling
*estaque:*Física realista de faces e corpos; popular na Ásia

Runway Gen-3 Alpha (2024)

*roprietário:*Runway ML
*estaque:*Coerência temporal; personagens consistentes; integração com câmera virtual

Representação 3D

NeRF — Neural Radiance Fields (2020)

*rXiv:*2003.08934 (Mildenhall et al., UC Berkeley)
*ecanismo:*MLP que mapeia (x, y, z, θ, φ) → (cor, densidade); ray marching para render
*esultado:*Reconstrução 3D fotorrealista a partir de múltiplas imagens
*ariantes:*Instant~~NGP (1000× mais rápido), NeRF~~W (in the wild), Mip-NeRF

3D Gaussian Splatting (2023)

*rXiv:*2308.04079
*ecanismo:*Representa cena como nuvem de Gaussianas 3D com cor e opacidade; rasterização
*elocidade:*Render em tempo real (30+ FPS vs NeRF que é lento)
*ualidade:*Similar ao NeRF; muito mais rápido para interatividade
*mpacto:*Novo padrão para reconstrução 3D interativa

Shap-E (OpenAI, 2023)

*rXiv:*2305.02463
*ecanismo:*Diffusion de parâmetros de NeRF implícitos
*nput:*Texto ou imagem → objeto 3D
*pen-source:*Sim

TRELLIS (Microsoft, 2024)

*rXiv:*2412.01506
*ecanismo:*3D Gaussian Splatting + Mesh via flow matching
*ualidade:*Estado da arte em geração 3D a partir de texto/imagem

Hunyuan3D-2 (Tencent, 2025)

*ecanismo:*Multi-view diffusion + reconstrução 3D
*pen-source:*Sim
*esultado:*Objetos 3D de alta qualidade em segundos

Zero1to-3 / Zero123++ (Columbia, 2023)

*rXiv:*2303.11328
*ecanismo:*Dado 1 imagem, gera views a partir de qualquer ângulo
*so:*Base para muitos sistemas de reconstrução 3D

World Models — Simuladores do Mundo com IA

DreamerV3 (DeepMind, 2023)

*rXiv:*2301.04104
*ecanismo:*Aprende modelo do mundo → planeja e age dentro do modelo (imaginação)
*esultado:*Mastered Minecraft diamond collection sem reward shaping; funciona em 150+ domínios
*rquitetura:*RSSM (Recurrent State Space Model) + atenção

Genie 2 (DeepMind, 2024)

*ançamento:*Dezembro 2024
*ecanismo:*Aprende mundos 3D interativos a partir de vídeo
*apacidade:*Dado 1 imagem, gera mundo 3D navegável e interativo
*esolução:*360p a 30fps por ~1 minuto com consistência

GameNGen (Google, 2024)

*rXiv:*2408.14837
*ecanismo:*Diffusion model que simula DOOM em tempo real (20 FPS)
*estaque:*Primeiro jogo real simulado por rede neural em tempo real
*rova de conceito:*Jogos como neural networks

DIAMOND / WHAM

*esquisa:*Simulação de jogos de Atari via diffusion
*esultado:*Aprendizado de reinforcement learning dentro do modelo aprendido

Cosmos (NVIDIA, 2025)

*ançamento:*CES 2025 / GTC 2025
*oco:*World Foundation Models para robótica e veículos autônomos
*ariantes:*Cosmos-1.0 (1B a 14B parâmetros)
*apacidade:*Geração de vídeo fisicamente consistente; re-renderização de cenas
*pen-source:*Sim (parte dos pesos)
*so:*Synthetic data para treinar robôs; simulação de cenários de condução

Video Understanding (Análise de Vídeo)

VideoLLaMA / Video-LLaVA

*ecanismo:*Encoder de vídeo + LLM para QA e descrição
*so:*Análise de conteúdo, descrição automática, busca semântica em vídeo

Gemini 2.5 Pro / Vídeo

*apacidade:*Contexto de 1M tokens → processa vídeos de 1+ hora
*esultado:*QA preciso sobre vídeos longos (documentários, reuniões, aulas)

Benchmarks de Vídeo

Benchmark	Foco
Video-MME	Compreensão multimodal de vídeo
MVBench	20 tarefas de vídeo
EgoSchema	Vídeo egocêntrico (câmera na cabeça)
ActivityNet-QA	QA sobre atividades em vídeo
YouCook2	Receitas em vídeo; descrição de steps

Tabela Comparativa de Geração de Vídeo (2025)

Sistema	Duração máx	Resolução	Audio	Open-source
Sora 2	60s	1080p	Não	Não
Veo 3.1	60s	1080p	Sim	Não
HunyuanVideo	5s	720p	Não	Sim
Runway Gen-3	10s	1080p	Não	Não
Kling 2.0	30s	1080p	Parcial	Não
LTX-Video	5s	720p	Não	Sim