Multimodal

Arquiteturas Multimodais Unificadas

Modelos que processam visão, linguagem e áudio em uma única arquitetura. Atualizado em abril de 2026.

Visão Geral

Arquiteturas multimodais unificadas tratam todos os inputs (texto, imagem, áudio, vídeo) como sequências de tokens em um único espaço de representação. Ao invés de ter um modelo de linguagem + um modelo de visão + um modelo de áudio separados, um único transformer processa tudo.

Isso traz três vantagens fundamentais:

*ransferência cross-modal*— conhecimento aprendido em um domínio (ex: descrição de imagens) ajuda em outro (ex: geração de texto)
*linhamento nativo*— não precisa de etapa extra para "alinhar" representações de diferentes modalidades
*mergência*— capacidades que não existem em modelos unimodais surgem quando todos os dados são treinados juntos

Arquiteturas Principais

Flamingo (DeepMind, 2022)

Primeiro modelo a demonstrar que um LLM pré~~treinado pode aprender visão com poucos exemplos (few~~shot) sem fine-tuning pesado.

Aspecto	Detalhe
Base	Chinchilla (70B) + Perceiver Resampler
Modalidades	Texto + Imagem
Dados de treino	43B pares imagem-texto (LAION, COYO, Conceptual Captions)
Abordagem	Congela o LLM, treina apenas o resampler visual e os tokens de interface
Resultado	Zero~~shot VQA, few~~shot captioning com performance SOTA

*or que importa:*Provou que não é necessário treinar do zero — um LLM de linguagem pré-treinado pode "ganhar olhos" com treinamento relativamente leve do adapter visual.

Chameleon (Meta, 2024)

Primeiro modelo "misto" de verdade: tokens de texto e tokens de imagem vivem no *esmo vocabulário* permitindo geração interleaved (texto~~imagem~~texto-imagem) nativa.

Aspecto	Detalhe
Tamanho	7B e 34B
Modalidades	Texto + Imagem (interleaved)
Vocabulário unificado	Tokens de texto + tokens de imagem (VQGAN codebook) no mesmo espaço
Tokenização de imagem	VQGAN com codebook de 8192 tokens
Treino	Endtoend em dados interleaved (não alternando entre modalidades)
Licença	Chameleon License (pesquisa comercial permitida, com restrições)

*rquitetura:*

Input → Tokenizer (texto) + VQGAN (imagem) → Espaço de tokens unificado
                                             ↓
                                        Transformer
                                             ↓
                                      Head de texto + Head de imagem

*imitação:*A tokenização de imagem via VQGAN perde resolução — imagens geradas são de qualidade moderada. Mas a capacidade de raciocinar sobre imagens e texto no mesmo espaço é revolucionária.

LLaVA-NeXT (Large Language and Vision Assistant, 2024–2026)

Evolução do LLaVA original, que conectava um encoder visual (CLIP) a um LLM (Llama/Vicuna) via um projector MLP simples.

Versão	Base LLM	Encoder Visual	Destaques
LLaVA 1.5 (2023)	Vicuna-7B/13B	CLIP ViT-L/14	Primeira demo open de VLM de alta qualidade
LLaVA-NeXT 72B (2024)	Llama370B	SigLIP + AnyRes	Resolução dinâmica, OCR forte
LLaVA~~NeXT~~Video (2024)	Llama38B	SigLIP	Entende vídeo com pooling temporal
LLaVA-OneVision (2024)	Qwen2-7B	SigLIP-SoViT	Single model: image + video + text
LLaVA-NeXT 34B (2025)	Qwen2.5-32B	SigLIP	SOTA open em VQA e document understanding

*nyRes (resolução dinâmica):*Ao invés de redimensionar a imagem para um tamanho fixo (ex: 336×336), AnyRes divide a imagem em patches e processa cada um separadamente, depois agrega. Isso permite entender imagens de alta resolução sem blow-up computacional.

*ara o Kode:*LLaVA~~NeXT com Qwen2.5~~Coder como base LLM é o candidato mais forte para um VLM de código — capaz de entender screenshots de IDE, diagramas, e código visual.

InternVL2 / InternVL2.5 (Shanghai AI Lab, 2024–2025)

Versão	Parâmetros	Contexto	Destaques
InternVL2 26B	26B (LLM 7B + Vision 19B)	12K	SOTA open em MMMU, DocVQA
InternVL2.5 78B	78B (LLM 70B + Vision 8B)	128K	Melhor VLM open em benchmarks gerais
InternVL2.5 8B	8B	12K	Leve, roda em GPU consumer

*rquitetura:*SigLIP (vision encoder) + projector MLP + Qwen2/InternLM2 (LLM). Treinado em 10M+ de pares imagem-texto com dados de alta qualidade (curadoria manual + filtragem).

*onto forte:*OCR e document understanding — InternVL2.5 supera GPT~~4o em DocVQA e ChartQA em várias sub~~tarefas.

Qwen2.5-VL (Alibaba, 2025)

Parâmetros	Contexto	Resolução	Licença
3B	128K	Dinâmica (até 1536×1536)	Apache 2.0
7B	128K	Dinâmica	Apache 2.0
32B	128K	Dinâmica	Qwen License

*estaques:*

*ynamic resolution:*processa imagens em resolução nativa sem cropping
*CR multilingual:*entende texto em 30+ idiomas dentro de imagens
*ideo understanding:*processa até 20 minutos de vídeo com pooling temporal
*UI agent:*trained para interagir com interfaces gráficas (clica, digita, navega)

*ara o Kode:*Qwen2.5VL7B é o melhor VLM open para código no momento. Integra bem com o ecossistema Qwen e tem licença permissiva.

Gemini 1.5/2.0 (Google, 2024–2026)

Modelo proprietário mas referência arquitetural.

Versão	Modalidades	Contexto	Destaques
Gemini 1.5 Pro	Texto, imagem, áudio, vídeo	1M+ tokens	Primeiro modelo com 1M context nativo
Gemini 1.5 Flash	Texto, imagem, áudio, vídeo	1M+ tokens	Versão leve, latência baixa
Gemini 2.0	Texto, imagem, áudio, vídeo	2M+	Multimodal nativo desde o pré-treino

*rquitetura:*Transformer com MoE nativo, tokenização multimodal unificada (texto → subwords, imagem → patches, áudio → frames, vídeo → frames temporais). Todos os tokens vivem no mesmo embedding space.

*ição arquitetural:*A chave do Gemini é o *ré-treino multimodal conjunto*— não é "LLM + adapter visual", é um único modelo treinado em texto + imagem + áudio + vídeo desde o início.

PaLI (Pathways Language and Image, Google, 2022–2023)

Versão	Parâmetros	Modalidades
PaLI	17B	Texto + Imagem
PaLI-2	5B	Texto + Imagem
PaLI-3	55B	Texto + Imagem
PaLI-X	55B	Texto + Imagem

*bordagem:*Usa T5 como base e adiciona um ViT como encoder visual, com um "bridge" que projeta features visuais no espaço de embeddings do T5.

*ontribuição:*Demonstrou que scaling funciona para multimodal da mesma forma que funciona para texto puro — mais dados + mais parâmetros = melhoria consistente.

Meta Chameleon vs. Llama 3.2 Vision

Aspecto	Chameleon	Llama 3.2 Vision
Tokenização	Vocabulário unificado (texto + imagem)	Separate encoders + projector
Treino	Interleaved endtoend	Fine-tuning de Llama 3 com dados visuais
Geração de imagem	Sim (nativa)	Não (só entende imagens)
Licença	Restritiva	Llama License (permissiva)
Praticidade	Experimental	Produção

*ara o Kode:*Llama 3.2 Vision (11B e 90B) é mais prático porque tem licença permissiva e já é otimizado para deploy. Chameleon é mais interessante como referência arquitetural.

Comparativo de Abordagens

Abordagem	Exemplo	Vantagem	Desvantagem
dapter (freeze LLM)	Flamingo	Rápido, barato, preserva capacidade de linguagem	Não melhora o LLM, só adiciona visão
rojector MLP	LLaVA, InternVL	Simples, funciona bem, open-source	Desalinhamento potencial entre vision e language
ocabulário unificado	Chameleon	Geração multimodal nativa, interleaved	Complexo, perda de qualidade visual (VQGAN)
ré-treino multimodal nativo	Gemini, PaLI	Alinhamento perfeito, transferência máxima	Custo de treino altíssimo

Treinamento Multimodal — Pipeline Típico

Fase 1: Pré-treino do vision encoder
  → CLIP/SigLIP em pares imagem-texto (400M–4B pares)

Fase 2: Pré-treino do LLM
  → Texto puro (1T–10T tokens)

Fase 3: Alignment projector
  → Congela vision encoder + LLM, treina apenas o projector
  → Dados: 10M–100M pares imagem-texto

Fase 4: Instruction tuning multimodal
  → SFT com instruções visuais (VQA, captioning, reasoning)
  → ~500K–2M exemplos

Fase 5: Preference optimization (opcional)
  → DPO/RLHF com recompensas visuais

*usto estimado para um VLM 7B:*

Fase 3: ~50 GPU-hours A100
Fase 4: ~200 GPU-hours A100
Fase 5: ~100 GPU-hours A100
*otal: ~350 A100-hours ≈ R$ 50–150K (depende do provedor)*

Datasets Multimodais

Dataset	Tamanho	Conteúdo	Uso
LAION-5B	5.8B pares	Imagem + alt-text	Pré-treino vision encoder
COYO-700M	700M pares	Imagem + descrição rica	Pré-treino
Conceptual Captions	3.3M pares	Imagem + caption	Fine-tuning
Visual Genome	108K imagens	Imagem + QA + relações	Fine-tuning, eval
DocVQA	50K docs	Documentos + QA	Eval
MMMU	11K questões	Imagens acadêmicas + QA	Eval
MME	2.3K imagens	Benchmark multimodal	Eval
LLaVA~~Instruct~~150K	150K exemplos	Imagem + instrução + resposta	Instruction tuning
ShareGPT4V	1.2M exemplos	Imagem + conversação	Instruction tuning

Para o Kode

Recomendação de arquitetura

Para um VLM próprio da Koder:

*ase LLM:*Qwen2.5~~Coder~~7B ou Llama~~3.1~~8B (já otimizados para código)
*ision encoder:*SigLIP~~SoViT~~400M (open, boa resolução, eficiente)
*rojector:*MLP 2-layer (simples, funciona)
*nstruction tuning:*500K exemplos focados em código visual (IDE screenshots, diagramas, UML, flowcharts)

*or que não Chameleon-style?*A tokenização de imagem via VQGAN perde detalhes críticos para código (símbolos, indentação visual, cores de syntax highlighting). O approach projector + encoder separado preserva mais informação visual.

Datasets prioritários para o Kode

Screenshots de IDEs com código correspondente
Diagramas UML/ERD com descrições textuais
Output de terminal com comandos correspondentes
Code diffs visuais (antes/depois)
Documentação técnica com figuras e texto

Hardware mínimo

Modelo	VRAM	GPU	Latência inferência
Qwen2.5VL3B	8 GB	RTX 3090/4090	~200ms/token
Qwen2.5VL7B	16 GB	RTX 3090/4090	~400ms/token
Llama~~3.2~~Vision-11B	24 GB	RTX 3090/4090	~600ms/token
InternVL2.5-26B	48 GB	2× A100 40GB	~800ms/token

Papers e Referências

Paper	Autores	Venue	arXiv
Flamingo	Alayrac et al.	NeurIPS 2022	arXiv:2204.14198
Chameleon	Team Chameleon	Meta Tech Report	—
LLaVA	Liu et al.	NeurIPS 2023	arXiv:2304.08485
LLaVA-NeXT	Liu et al.	2024	arXiv:2401.12511
InternVL2	Chen et al.	2024	arXiv:2404.16821
Qwen2-VL	Wang et al.	2024	arXiv:2409.12191
Gemini 1.5	Team Gemini	Google Tech Report	arXiv:2403.05530
PaLI	Chen et al.	ICLR 2023	arXiv:2209.06794
SigLIP	Zhai et al.	CVPR 2023	arXiv:2303.15343