Visao imagem

IA em Visão e Geração de Imagens

Fundamentos de Visão

ViT — Vision Transformer

*rXiv:*2010.11929 (Dosovitskiy et al., Google, 2020)
*ecanismo:*Divide imagem em patches → trata cada patch como token → Transformer padrão
*esultado:*Match com CNNs em ImageNet com dados suficientes
*mpacto:*Unificou visão e linguagem; base de quase todos os VLMs modernos

CLIP (OpenAI, 2021)

*rXiv:*2103.00020
*ecanismo:*Treina encoder de imagem e texto para alinhar representações (contrastive learning)
*ados:*400M pares imagem-texto da internet
*apacidade:*Zero-shot image classification; busca por texto em imagens
*mpacto:*Base de Stable Diffusion, DALL-E 2, Midjourney e centenas de outros

SigLIP (Google, 2023)

*rXiv:*2303.15343
*elhoria sobre CLIP:*Sigmoid loss (não softmax); mais eficiente; melhor qualidade
*doção:*Gemma 3, PaliGemma, muitos VLMs modernos

DINOv2 (Meta, 2023)

*rXiv:*2304.07193
*reinamento:*Auto-supervisionado (sem labels); distilação de conhecimento consigo mesmo
*eatures:*Representações densas; excelente para segmentação, depth estimation
*so:*Base para modelos de segmentação e depth

Segmentação

SAM — Segment Anything Model (Meta, 2023)

*rXiv:*2304.02643
*ados:*SA-1B: 1B masks em 11M imagens (maior dataset de segmentação)
*apacidade:*Segmenta qualquer objeto dado ponto, caixa ou texto como prompt
*ero-shot:*Funciona sem treinamento adicional

SAM 2 (Meta, 2024)

*rXiv:*2408.00714
*xtensão:*Segmentação em *ídeo*— rastreia objetos através de frames
*elocidade:*44 FPS em vídeo
*sos:*Edição de vídeo, tracking médico, AR

Geração de Imagens com Diffusion

Stable Diffusion 1.x / 2.x (Stability AI, 2022)

*rXiv:*2112.10752 (LDM — Latent Diffusion Models)
*ecanismo:*Diffusion no espaço latente (4× comprimido) → mais eficiente
*LIP:*Texto condicionado por CLIP text encoder
*pen-source:*Pesos abertos; base do ecossistema open de geração de imagens

Stable Diffusion 3 / 3.5 (Stability AI, 2024)

*rXiv:*2403.03206 (SD3)
*rquitetura:*Multimodal Diffusion Transformer (DiT com text tokens e image tokens integrados)
*elhoria:*Tipografia (texto em imagens), composição de múltiplos objetos
*D 3.5 Large:*8B parâmetros; estado da arte open-source

FLUX.1 (Black Forest Labs, 2024)

*rigem:*Time original do Stable Diffusion (Robin Rombach et al.)
*ariantes:*flux~~dev (open), flux~~schnell (open), flux-pro (API)
*rquitetura:*Flow matching + Transformer; sem UNet
*ualidade:*Melhor tipografia e realismo que SD3 em muitos casos

AuraFlow (Fal, 2024)

*pen-source:*Sim; arquitetura Flow Matching
*lternativa:*FLUX.1 de menor custo computacional

Geração com Modelos Proprietários

DALL-E 3 (OpenAI, 2023)

*ecanismo:*Treinado com captions sintéticas geradas por GPT-4 (vs captions originais)
*esultado:*Melhor fidelidade texto-imagem; texto em imagens
*ntegração:*ChatGPT; API da OpenAI

GPT-4o Native Image Generation (2025)

*ovo:*GPT~~4o gera imagens nativamente (sem DALL~~E separado)
*apacidade:*Edição de imagem com contexto; precisão em texto

Midjourney v6 / v7 (2024–2025)

*mpresa:*Independente
*estaque:*Realismo fotográfico; estética; muito usado por artistas
*cesso:*Discord + web; sem API pública

Imagen 3 (Google, 2024)

*ascaded diffusion*com text encoder T5-XXL
*ualidade:*Competitivo com DALL-E 3; integrado ao Google Workspace

Controle e Personalização

ControlNet (2023)

*rXiv:*2302.05543
*ecanismo:*Condicionamento adicional (pose, profundidade, borda, segmentação) via redes paralelas
*mpacto:*Permite controle preciso de composição sem re-treinar SD

IP-Adapter (2023)

*rXiv:*2308.06721
*ecanismo:*Adapter que condicionam SD sobre imagem de referência (style/content)
*so:*"Gere imagem neste estilo" sem fine-tuning

LoRA para Imagens

*reamBooth:*Fine-tuna SD em 3–20 imagens de um conceito
*oRA:*Adapter leve; pode representar personagem, estilo, objeto
*ivitai:*Comunidade de LoRAs de imagem

Super-Resolução e Restauração

Real-ESRGAN

*pscaling:*4× com artifacts reais
*so:*Restauração de fotos antigas, upscaling de vídeo

BSRGAN / SwinIR

Restauração de imagens degradadas (desfoque, ruído, compressão JPEG)

Vision-Language Models (VLMs)

Modelo	Base	Visual Encoder	Parâmetros
LLaVA 1.6	Llama 3	CLIP ViT-L	7B–34B
InternVL2	InternLM2	InternViT-6B	2B–76B
Qwen2.5-VL	Qwen2.5	SigLIP/DINOv2	3B–72B
Gemma 3	Gemma 3	SigLIP	4B–27B
PaliGemma	Gemma	SigLIP	3B–28B
Llama 4 Maverick	Llama 4	Nativo	Multi-B
Claude Opus 4.7	Claude	Nativo	—
GPT-5	GPT-5	Nativo	—

Benchmarks de Visão

Benchmark	Foco	SOTA
MMMU	Entendimento visual multidomínio	GPT-5
DocVQA	Documentos	Gemini 2.5 Pro
ChartQA	Gráficos	Claude Opus 4.7
MMStar	Visão pura (sem language leak)	Claude Opus 4.7
VQAv2	QA geral sobre imagens	Saturado