Video 3d world models

IA em Vídeo, 3D e World Models

Geração de Vídeo

Sora (OpenAI, 2024–2025)

  • *ançamento:*Fevereiro 2024 (demo); dezembro 2024 (acesso)
  • *rquitetura:*Video Diffusion Transformer (DiT em espaço-tempo)
  • *apacidade:*Vídeos até 1 minuto; múltiplas relações de aspecto; física coerente
  • *ecanismo:*"Spacetime patches" — treats frames como tokens 3D
  • *ora 2 (2025):*Maior resolução; melhor física; geração de personagens consistentes

Veo 3 / Veo 3.1 (Google DeepMind, 2025)

  • *ançamento:*Google I/O 2025
  • *estaque:*Geração de áudio nativo junto com vídeo (sincronização lábio-som)
  • *ualidade:*Competitivo com Sora; física mais coerente em alguns casos
  • *eo 3.1:*Maior resolução; efeitos sonoros realistas

HunyuanVideo (Tencent, 2024)

  • *rXiv:*2412.03603
  • *pen-source:*Sim; pesos públicos
  • *specificações:*13B parâmetros; 720p a 5s; melhor open-source disponível
  • *ualidade:*Próximo de Sora na maioria dos casos

CogVideoX (Zhipu AI / Tsinghua, 2024)

  • *rXiv:*2408.06072
  • *pen-source:*Sim (Apache 2.0)
  • *ariantes:*2B e 5B parâmetros

LTX-Video (Lightricks, 2024)

  • *pen-source:*Sim
  • *estaque:*Geração muito rápida (poucos segundos em A100)
  • *amanho:*2B parâmetros; boa qualidade para tamanho

Kling (Kuaishou, 2024)

  • *cesso:*API; kuaishou.com/keling
  • *estaque:*Física realista de faces e corpos; popular na Ásia

Runway Gen-3 Alpha (2024)

  • *roprietário:*Runway ML
  • *estaque:*Coerência temporal; personagens consistentes; integração com câmera virtual

Representação 3D

NeRF — Neural Radiance Fields (2020)

  • *rXiv:*2003.08934 (Mildenhall et al., UC Berkeley)
  • *ecanismo:*MLP que mapeia (x, y, z, θ, φ) → (cor, densidade); ray marching para render
  • *esultado:*Reconstrução 3D fotorrealista a partir de múltiplas imagens
  • *ariantes:*InstantNGP (1000× mais rápido), NeRFW (in the wild), Mip-NeRF

3D Gaussian Splatting (2023)

  • *rXiv:*2308.04079
  • *ecanismo:*Representa cena como nuvem de Gaussianas 3D com cor e opacidade; rasterização
  • *elocidade:*Render em tempo real (30+ FPS vs NeRF que é lento)
  • *ualidade:*Similar ao NeRF; muito mais rápido para interatividade
  • *mpacto:*Novo padrão para reconstrução 3D interativa

Shap-E (OpenAI, 2023)

  • *rXiv:*2305.02463
  • *ecanismo:*Diffusion de parâmetros de NeRF implícitos
  • *nput:*Texto ou imagem → objeto 3D
  • *pen-source:*Sim

TRELLIS (Microsoft, 2024)

  • *rXiv:*2412.01506
  • *ecanismo:*3D Gaussian Splatting + Mesh via flow matching
  • *ualidade:*Estado da arte em geração 3D a partir de texto/imagem

Hunyuan3D-2 (Tencent, 2025)

  • *ecanismo:*Multi-view diffusion + reconstrução 3D
  • *pen-source:*Sim
  • *esultado:*Objetos 3D de alta qualidade em segundos

Zero1to-3 / Zero123++ (Columbia, 2023)

  • *rXiv:*2303.11328
  • *ecanismo:*Dado 1 imagem, gera views a partir de qualquer ângulo
  • *so:*Base para muitos sistemas de reconstrução 3D

World Models — Simuladores do Mundo com IA

DreamerV3 (DeepMind, 2023)

  • *rXiv:*2301.04104
  • *ecanismo:*Aprende modelo do mundo → planeja e age dentro do modelo (imaginação)
  • *esultado:*Mastered Minecraft diamond collection sem reward shaping; funciona em 150+ domínios
  • *rquitetura:*RSSM (Recurrent State Space Model) + atenção

Genie 2 (DeepMind, 2024)

  • *ançamento:*Dezembro 2024
  • *ecanismo:*Aprende mundos 3D interativos a partir de vídeo
  • *apacidade:*Dado 1 imagem, gera mundo 3D navegável e interativo
  • *esolução:*360p a 30fps por ~1 minuto com consistência

GameNGen (Google, 2024)

  • *rXiv:*2408.14837
  • *ecanismo:*Diffusion model que simula DOOM em tempo real (20 FPS)
  • *estaque:*Primeiro jogo real simulado por rede neural em tempo real
  • *rova de conceito:*Jogos como neural networks

DIAMOND / WHAM

  • *esquisa:*Simulação de jogos de Atari via diffusion
  • *esultado:*Aprendizado de reinforcement learning dentro do modelo aprendido

Cosmos (NVIDIA, 2025)

  • *ançamento:*CES 2025 / GTC 2025
  • *oco:*World Foundation Models para robótica e veículos autônomos
  • *ariantes:*Cosmos-1.0 (1B a 14B parâmetros)
  • *apacidade:*Geração de vídeo fisicamente consistente; re-renderização de cenas
  • *pen-source:*Sim (parte dos pesos)
  • *so:*Synthetic data para treinar robôs; simulação de cenários de condução

Video Understanding (Análise de Vídeo)

VideoLLaMA / Video-LLaVA

  • *ecanismo:*Encoder de vídeo + LLM para QA e descrição
  • *so:*Análise de conteúdo, descrição automática, busca semântica em vídeo

Gemini 2.5 Pro / Vídeo

  • *apacidade:*Contexto de 1M tokens → processa vídeos de 1+ hora
  • *esultado:*QA preciso sobre vídeos longos (documentários, reuniões, aulas)

Benchmarks de Vídeo

Benchmark Foco
Video-MME Compreensão multimodal de vídeo
MVBench 20 tarefas de vídeo
EgoSchema Vídeo egocêntrico (câmera na cabeça)
ActivityNet-QA QA sobre atividades em vídeo
YouCook2 Receitas em vídeo; descrição de steps

Tabela Comparativa de Geração de Vídeo (2025)

Sistema Duração máx Resolução Audio Open-source
Sora 2 60s 1080p Não Não
Veo 3.1 60s 1080p Sim Não
HunyuanVideo 5s 720p Não Sim
Runway Gen-3 10s 1080p Não Não
Kling 2.0 30s 1080p Parcial Não
LTX-Video 5s 720p Não Sim

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/09-aplicacoes/video-3d-world-models.md