Visao imagem

IA em Visão e Geração de Imagens

Fundamentos de Visão

ViT — Vision Transformer

  • *rXiv:*2010.11929 (Dosovitskiy et al., Google, 2020)
  • *ecanismo:*Divide imagem em patches → trata cada patch como token → Transformer padrão
  • *esultado:*Match com CNNs em ImageNet com dados suficientes
  • *mpacto:*Unificou visão e linguagem; base de quase todos os VLMs modernos

CLIP (OpenAI, 2021)

  • *rXiv:*2103.00020
  • *ecanismo:*Treina encoder de imagem e texto para alinhar representações (contrastive learning)
  • *ados:*400M pares imagem-texto da internet
  • *apacidade:*Zero-shot image classification; busca por texto em imagens
  • *mpacto:*Base de Stable Diffusion, DALL-E 2, Midjourney e centenas de outros

SigLIP (Google, 2023)

  • *rXiv:*2303.15343
  • *elhoria sobre CLIP:*Sigmoid loss (não softmax); mais eficiente; melhor qualidade
  • *doção:*Gemma 3, PaliGemma, muitos VLMs modernos

DINOv2 (Meta, 2023)

  • *rXiv:*2304.07193
  • *reinamento:*Auto-supervisionado (sem labels); distilação de conhecimento consigo mesmo
  • *eatures:*Representações densas; excelente para segmentação, depth estimation
  • *so:*Base para modelos de segmentação e depth

Segmentação

SAM — Segment Anything Model (Meta, 2023)

  • *rXiv:*2304.02643
  • *ados:*SA-1B: 1B masks em 11M imagens (maior dataset de segmentação)
  • *apacidade:*Segmenta qualquer objeto dado ponto, caixa ou texto como prompt
  • *ero-shot:*Funciona sem treinamento adicional

SAM 2 (Meta, 2024)

  • *rXiv:*2408.00714
  • *xtensão:*Segmentação em *ídeo*— rastreia objetos através de frames
  • *elocidade:*44 FPS em vídeo
  • *sos:*Edição de vídeo, tracking médico, AR

Geração de Imagens com Diffusion

Stable Diffusion 1.x / 2.x (Stability AI, 2022)

  • *rXiv:*2112.10752 (LDM — Latent Diffusion Models)
  • *ecanismo:*Diffusion no espaço latente (4× comprimido) → mais eficiente
  • *LIP:*Texto condicionado por CLIP text encoder
  • *pen-source:*Pesos abertos; base do ecossistema open de geração de imagens

Stable Diffusion 3 / 3.5 (Stability AI, 2024)

  • *rXiv:*2403.03206 (SD3)
  • *rquitetura:*Multimodal Diffusion Transformer (DiT com text tokens e image tokens integrados)
  • *elhoria:*Tipografia (texto em imagens), composição de múltiplos objetos
  • *D 3.5 Large:*8B parâmetros; estado da arte open-source

FLUX.1 (Black Forest Labs, 2024)

  • *rigem:*Time original do Stable Diffusion (Robin Rombach et al.)
  • *ariantes:*fluxdev (open), fluxschnell (open), flux-pro (API)
  • *rquitetura:*Flow matching + Transformer; sem UNet
  • *ualidade:*Melhor tipografia e realismo que SD3 em muitos casos

AuraFlow (Fal, 2024)

  • *pen-source:*Sim; arquitetura Flow Matching
  • *lternativa:*FLUX.1 de menor custo computacional

Geração com Modelos Proprietários

DALL-E 3 (OpenAI, 2023)

  • *ecanismo:*Treinado com captions sintéticas geradas por GPT-4 (vs captions originais)
  • *esultado:*Melhor fidelidade texto-imagem; texto em imagens
  • *ntegração:*ChatGPT; API da OpenAI

GPT-4o Native Image Generation (2025)

  • *ovo:*GPT4o gera imagens nativamente (sem DALLE separado)
  • *apacidade:*Edição de imagem com contexto; precisão em texto

Midjourney v6 / v7 (2024–2025)

  • *mpresa:*Independente
  • *estaque:*Realismo fotográfico; estética; muito usado por artistas
  • *cesso:*Discord + web; sem API pública

Imagen 3 (Google, 2024)

  • *ascaded diffusion*com text encoder T5-XXL
  • *ualidade:*Competitivo com DALL-E 3; integrado ao Google Workspace

Controle e Personalização

ControlNet (2023)

  • *rXiv:*2302.05543
  • *ecanismo:*Condicionamento adicional (pose, profundidade, borda, segmentação) via redes paralelas
  • *mpacto:*Permite controle preciso de composição sem re-treinar SD

IP-Adapter (2023)

  • *rXiv:*2308.06721
  • *ecanismo:*Adapter que condicionam SD sobre imagem de referência (style/content)
  • *so:*"Gere imagem neste estilo" sem fine-tuning

LoRA para Imagens

  • *reamBooth:*Fine-tuna SD em 3–20 imagens de um conceito
  • *oRA:*Adapter leve; pode representar personagem, estilo, objeto
  • *ivitai:*Comunidade de LoRAs de imagem

Super-Resolução e Restauração

Real-ESRGAN

  • *pscaling:*4× com artifacts reais
  • *so:*Restauração de fotos antigas, upscaling de vídeo

BSRGAN / SwinIR

  • Restauração de imagens degradadas (desfoque, ruído, compressão JPEG)

Vision-Language Models (VLMs)

Modelo Base Visual Encoder Parâmetros
LLaVA 1.6 Llama 3 CLIP ViT-L 7B–34B
InternVL2 InternLM2 InternViT-6B 2B–76B
Qwen2.5-VL Qwen2.5 SigLIP/DINOv2 3B–72B
Gemma 3 Gemma 3 SigLIP 4B–27B
PaliGemma Gemma SigLIP 3B–28B
Llama 4 Maverick Llama 4 Nativo Multi-B
Claude Opus 4.7 Claude Nativo
GPT-5 GPT-5 Nativo

Benchmarks de Visão

Benchmark Foco SOTA
MMMU Entendimento visual multidomínio GPT-5
DocVQA Documentos Gemini 2.5 Pro
ChartQA Gráficos Claude Opus 4.7
MMStar Visão pura (sem language leak) Claude Opus 4.7
VQAv2 QA geral sobre imagens Saturado

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/09-aplicacoes/visao-imagem.md