Visao imagem
IA em Visão e Geração de Imagens
Fundamentos de Visão
ViT — Vision Transformer
- *rXiv:*2010.11929 (Dosovitskiy et al., Google, 2020)
- *ecanismo:*Divide imagem em patches → trata cada patch como token → Transformer padrão
- *esultado:*Match com CNNs em ImageNet com dados suficientes
- *mpacto:*Unificou visão e linguagem; base de quase todos os VLMs modernos
CLIP (OpenAI, 2021)
- *rXiv:*2103.00020
- *ecanismo:*Treina encoder de imagem e texto para alinhar representações (contrastive learning)
- *ados:*400M pares imagem-texto da internet
- *apacidade:*Zero-shot image classification; busca por texto em imagens
- *mpacto:*Base de Stable Diffusion, DALL-E 2, Midjourney e centenas de outros
SigLIP (Google, 2023)
- *rXiv:*2303.15343
- *elhoria sobre CLIP:*Sigmoid loss (não softmax); mais eficiente; melhor qualidade
- *doção:*Gemma 3, PaliGemma, muitos VLMs modernos
DINOv2 (Meta, 2023)
- *rXiv:*2304.07193
- *reinamento:*Auto-supervisionado (sem labels); distilação de conhecimento consigo mesmo
- *eatures:*Representações densas; excelente para segmentação, depth estimation
- *so:*Base para modelos de segmentação e depth
Segmentação
SAM — Segment Anything Model (Meta, 2023)
- *rXiv:*2304.02643
- *ados:*SA-1B: 1B masks em 11M imagens (maior dataset de segmentação)
- *apacidade:*Segmenta qualquer objeto dado ponto, caixa ou texto como prompt
- *ero-shot:*Funciona sem treinamento adicional
SAM 2 (Meta, 2024)
- *rXiv:*2408.00714
- *xtensão:*Segmentação em *ídeo*— rastreia objetos através de frames
- *elocidade:*44 FPS em vídeo
- *sos:*Edição de vídeo, tracking médico, AR
Geração de Imagens com Diffusion
Stable Diffusion 1.x / 2.x (Stability AI, 2022)
- *rXiv:*2112.10752 (LDM — Latent Diffusion Models)
- *ecanismo:*Diffusion no espaço latente (4× comprimido) → mais eficiente
- *LIP:*Texto condicionado por CLIP text encoder
- *pen-source:*Pesos abertos; base do ecossistema open de geração de imagens
Stable Diffusion 3 / 3.5 (Stability AI, 2024)
- *rXiv:*2403.03206 (SD3)
- *rquitetura:*Multimodal Diffusion Transformer (DiT com text tokens e image tokens integrados)
- *elhoria:*Tipografia (texto em imagens), composição de múltiplos objetos
- *D 3.5 Large:*8B parâmetros; estado da arte open-source
FLUX.1 (Black Forest Labs, 2024)
- *rigem:*Time original do Stable Diffusion (Robin Rombach et al.)
- *ariantes:*flux
dev (open), fluxschnell (open), flux-pro (API) - *rquitetura:*Flow matching + Transformer; sem UNet
- *ualidade:*Melhor tipografia e realismo que SD3 em muitos casos
AuraFlow (Fal, 2024)
- *pen-source:*Sim; arquitetura Flow Matching
- *lternativa:*FLUX.1 de menor custo computacional
Geração com Modelos Proprietários
DALL-E 3 (OpenAI, 2023)
- *ecanismo:*Treinado com captions sintéticas geradas por GPT-4 (vs captions originais)
- *esultado:*Melhor fidelidade texto-imagem; texto em imagens
- *ntegração:*ChatGPT; API da OpenAI
GPT-4o Native Image Generation (2025)
- *ovo:*GPT
4o gera imagens nativamente (sem DALLE separado) - *apacidade:*Edição de imagem com contexto; precisão em texto
Midjourney v6 / v7 (2024–2025)
- *mpresa:*Independente
- *estaque:*Realismo fotográfico; estética; muito usado por artistas
- *cesso:*Discord + web; sem API pública
Imagen 3 (Google, 2024)
- *ascaded diffusion*com text encoder T5-XXL
- *ualidade:*Competitivo com DALL-E 3; integrado ao Google Workspace
Controle e Personalização
ControlNet (2023)
- *rXiv:*2302.05543
- *ecanismo:*Condicionamento adicional (pose, profundidade, borda, segmentação) via redes paralelas
- *mpacto:*Permite controle preciso de composição sem re-treinar SD
IP-Adapter (2023)
- *rXiv:*2308.06721
- *ecanismo:*Adapter que condicionam SD sobre imagem de referência (style/content)
- *so:*"Gere imagem neste estilo" sem fine-tuning
LoRA para Imagens
- *reamBooth:*Fine-tuna SD em 3–20 imagens de um conceito
- *oRA:*Adapter leve; pode representar personagem, estilo, objeto
- *ivitai:*Comunidade de LoRAs de imagem
Super-Resolução e Restauração
Real-ESRGAN
- *pscaling:*4× com artifacts reais
- *so:*Restauração de fotos antigas, upscaling de vídeo
BSRGAN / SwinIR
- Restauração de imagens degradadas (desfoque, ruído, compressão JPEG)
Vision-Language Models (VLMs)
| Modelo | Base | Visual Encoder | Parâmetros |
|---|---|---|---|
| LLaVA 1.6 | Llama 3 | CLIP ViT-L | 7B–34B |
| InternVL2 | InternLM2 | InternViT-6B | 2B–76B |
| Qwen2.5-VL | Qwen2.5 | SigLIP/DINOv2 | 3B–72B |
| Gemma 3 | Gemma 3 | SigLIP | 4B–27B |
| PaliGemma | Gemma | SigLIP | 3B–28B |
| Llama 4 Maverick | Llama 4 | Nativo | Multi-B |
| Claude Opus 4.7 | Claude | Nativo | — |
| GPT-5 | GPT-5 | Nativo | — |
Benchmarks de Visão
| Benchmark | Foco | SOTA |
|---|---|---|
| MMMU | Entendimento visual multidomínio | GPT-5 |
| DocVQA | Documentos | Gemini 2.5 Pro |
| ChartQA | Gráficos | Claude Opus 4.7 |
| MMStar | Visão pura (sem language leak) | Claude Opus 4.7 |
| VQAv2 | QA geral sobre imagens | Saturado |