Multimodal
Arquiteturas Multimodais Unificadas
Modelos que processam visão, linguagem e áudio em uma única arquitetura. Atualizado em abril de 2026.
Visão Geral
Arquiteturas multimodais unificadas tratam todos os inputs (texto, imagem, áudio, vídeo) como sequências de tokens em um único espaço de representação. Ao invés de ter um modelo de linguagem + um modelo de visão + um modelo de áudio separados, um único transformer processa tudo.
Isso traz três vantagens fundamentais:
- *ransferência cross-modal*— conhecimento aprendido em um domínio (ex: descrição de imagens) ajuda em outro (ex: geração de texto)
- *linhamento nativo*— não precisa de etapa extra para "alinhar" representações de diferentes modalidades
- *mergência*— capacidades que não existem em modelos unimodais surgem quando todos os dados são treinados juntos
Arquiteturas Principais
Flamingo (DeepMind, 2022)
Primeiro modelo a demonstrar que um LLM prétreinado pode aprender visão com poucos exemplos (fewshot) sem fine-tuning pesado.
| Aspecto | Detalhe |
|---|---|
| Base | Chinchilla (70B) + Perceiver Resampler |
| Modalidades | Texto + Imagem |
| Dados de treino | 43B pares imagem-texto (LAION, COYO, Conceptual Captions) |
| Abordagem | Congela o LLM, treina apenas o resampler visual e os tokens de interface |
| Resultado | Zero |
*or que importa:*Provou que não é necessário treinar do zero — um LLM de linguagem pré-treinado pode "ganhar olhos" com treinamento relativamente leve do adapter visual.
Chameleon (Meta, 2024)
Primeiro modelo "misto" de verdade: tokens de texto e tokens de imagem vivem no *esmo vocabulário* permitindo geração interleaved (textoimagemtexto-imagem) nativa.
| Aspecto | Detalhe |
|---|---|
| Tamanho | 7B e 34B |
| Modalidades | Texto + Imagem (interleaved) |
| Vocabulário unificado | Tokens de texto + tokens de imagem (VQGAN codebook) no mesmo espaço |
| Tokenização de imagem | VQGAN com codebook de 8192 tokens |
| Treino | End |
| Licença | Chameleon License (pesquisa comercial permitida, com restrições) |
*rquitetura:*
Input → Tokenizer (texto) + VQGAN (imagem) → Espaço de tokens unificado
↓
Transformer
↓
Head de texto + Head de imagem*imitação:*A tokenização de imagem via VQGAN perde resolução — imagens geradas são de qualidade moderada. Mas a capacidade de raciocinar sobre imagens e texto no mesmo espaço é revolucionária.
LLaVA-NeXT (Large Language and Vision Assistant, 2024–2026)
Evolução do LLaVA original, que conectava um encoder visual (CLIP) a um LLM (Llama/Vicuna) via um projector MLP simples.
| Versão | Base LLM | Encoder Visual | Destaques |
|---|---|---|---|
| LLaVA 1.5 (2023) | Vicuna-7B/13B | CLIP ViT-L/14 | Primeira demo open de VLM de alta qualidade |
| LLaVA-NeXT 72B (2024) | Llama |
SigLIP + AnyRes | Resolução dinâmica, OCR forte |
| LLaVA |
Llama |
SigLIP | Entende vídeo com pooling temporal |
| LLaVA-OneVision (2024) | Qwen2-7B | SigLIP-SoViT | Single model: image + video + text |
| LLaVA-NeXT 34B (2025) | Qwen2.5-32B | SigLIP | SOTA open em VQA e document understanding |
*nyRes (resolução dinâmica):*Ao invés de redimensionar a imagem para um tamanho fixo (ex: 336×336), AnyRes divide a imagem em patches e processa cada um separadamente, depois agrega. Isso permite entender imagens de alta resolução sem blow-up computacional.
*ara o Kode:*LLaVANeXT com Qwen2.5Coder como base LLM é o candidato mais forte para um VLM de código — capaz de entender screenshots de IDE, diagramas, e código visual.
InternVL2 / InternVL2.5 (Shanghai AI Lab, 2024–2025)
| Versão | Parâmetros | Contexto | Destaques |
|---|---|---|---|
| InternVL2 26B | 26B (LLM 7B + Vision 19B) | 12K | SOTA open em MMMU, DocVQA |
| InternVL2.5 78B | 78B (LLM 70B + Vision 8B) | 128K | Melhor VLM open em benchmarks gerais |
| InternVL2.5 8B | 8B | 12K | Leve, roda em GPU consumer |
*rquitetura:*SigLIP (vision encoder) + projector MLP + Qwen2/InternLM2 (LLM). Treinado em 10M+ de pares imagem-texto com dados de alta qualidade (curadoria manual + filtragem).
*onto forte:*OCR e document understanding — InternVL2.5 supera GPT4o em DocVQA e ChartQA em várias subtarefas.
Qwen2.5-VL (Alibaba, 2025)
| Parâmetros | Contexto | Resolução | Licença |
|---|---|---|---|
| 3B | 128K | Dinâmica (até 1536×1536) | Apache 2.0 |
| 7B | 128K | Dinâmica | Apache 2.0 |
| 32B | 128K | Dinâmica | Qwen License |
*estaques:*
- *ynamic resolution:*processa imagens em resolução nativa sem cropping
- *CR multilingual:*entende texto em 30+ idiomas dentro de imagens
- *ideo understanding:*processa até 20 minutos de vídeo com pooling temporal
- *UI agent:*trained para interagir com interfaces gráficas (clica, digita, navega)
*ara o Kode:*Qwen2.5VL7B é o melhor VLM open para código no momento. Integra bem com o ecossistema Qwen e tem licença permissiva.
Gemini 1.5/2.0 (Google, 2024–2026)
Modelo proprietário mas referência arquitetural.
| Versão | Modalidades | Contexto | Destaques |
|---|---|---|---|
| Gemini 1.5 Pro | Texto, imagem, áudio, vídeo | 1M+ tokens | Primeiro modelo com 1M context nativo |
| Gemini 1.5 Flash | Texto, imagem, áudio, vídeo | 1M+ tokens | Versão leve, latência baixa |
| Gemini 2.0 | Texto, imagem, áudio, vídeo | 2M+ | Multimodal nativo desde o pré-treino |
*rquitetura:*Transformer com MoE nativo, tokenização multimodal unificada (texto → subwords, imagem → patches, áudio → frames, vídeo → frames temporais). Todos os tokens vivem no mesmo embedding space.
*ição arquitetural:*A chave do Gemini é o *ré-treino multimodal conjunto*— não é "LLM + adapter visual", é um único modelo treinado em texto + imagem + áudio + vídeo desde o início.
PaLI (Pathways Language and Image, Google, 2022–2023)
| Versão | Parâmetros | Modalidades |
|---|---|---|
| PaLI | 17B | Texto + Imagem |
| PaLI-2 | 5B | Texto + Imagem |
| PaLI-3 | 55B | Texto + Imagem |
| PaLI-X | 55B | Texto + Imagem |
*bordagem:*Usa T5 como base e adiciona um ViT como encoder visual, com um "bridge" que projeta features visuais no espaço de embeddings do T5.
*ontribuição:*Demonstrou que scaling funciona para multimodal da mesma forma que funciona para texto puro — mais dados + mais parâmetros = melhoria consistente.
Meta Chameleon vs. Llama 3.2 Vision
| Aspecto | Chameleon | Llama 3.2 Vision |
|---|---|---|
| Tokenização | Vocabulário unificado (texto + imagem) | Separate encoders + projector |
| Treino | Interleaved end |
Fine-tuning de Llama 3 com dados visuais |
| Geração de imagem | Sim (nativa) | Não (só entende imagens) |
| Licença | Restritiva | Llama License (permissiva) |
| Praticidade | Experimental | Produção |
*ara o Kode:*Llama 3.2 Vision (11B e 90B) é mais prático porque tem licença permissiva e já é otimizado para deploy. Chameleon é mais interessante como referência arquitetural.
Comparativo de Abordagens
| Abordagem | Exemplo | Vantagem | Desvantagem |
|---|---|---|---|
| *dapter (freeze LLM)* | Flamingo | Rápido, barato, preserva capacidade de linguagem | Não melhora o LLM, só adiciona visão |
| *rojector MLP* | LLaVA, InternVL | Simples, funciona bem, open-source | Desalinhamento potencial entre vision e language |
| *ocabulário unificado* | Chameleon | Geração multimodal nativa, interleaved | Complexo, perda de qualidade visual (VQGAN) |
| *ré-treino multimodal nativo* | Gemini, PaLI | Alinhamento perfeito, transferência máxima | Custo de treino altíssimo |
Treinamento Multimodal — Pipeline Típico
Fase 1: Pré-treino do vision encoder
→ CLIP/SigLIP em pares imagem-texto (400M–4B pares)
Fase 2: Pré-treino do LLM
→ Texto puro (1T–10T tokens)
Fase 3: Alignment projector
→ Congela vision encoder + LLM, treina apenas o projector
→ Dados: 10M–100M pares imagem-texto
Fase 4: Instruction tuning multimodal
→ SFT com instruções visuais (VQA, captioning, reasoning)
→ ~500K–2M exemplos
Fase 5: Preference optimization (opcional)
→ DPO/RLHF com recompensas visuais*usto estimado para um VLM 7B:*
- Fase 3: ~50 GPU-hours A100
- Fase 4: ~200 GPU-hours A100
- Fase 5: ~100 GPU-hours A100
- *otal: ~350 A100-hours ≈ R$ 50–150K (depende do provedor)*
Datasets Multimodais
| Dataset | Tamanho | Conteúdo | Uso |
|---|---|---|---|
| LAION-5B | 5.8B pares | Imagem + alt-text | Pré-treino vision encoder |
| COYO-700M | 700M pares | Imagem + descrição rica | Pré-treino |
| Conceptual Captions | 3.3M pares | Imagem + caption | Fine-tuning |
| Visual Genome | 108K imagens | Imagem + QA + relações | Fine-tuning, eval |
| DocVQA | 50K docs | Documentos + QA | Eval |
| MMMU | 11K questões | Imagens acadêmicas + QA | Eval |
| MME | 2.3K imagens | Benchmark multimodal | Eval |
| LLaVA |
150K exemplos | Imagem + instrução + resposta | Instruction tuning |
| ShareGPT4V | 1.2M exemplos | Imagem + conversação | Instruction tuning |
Para o Kode
Recomendação de arquitetura
Para um VLM próprio da Koder:
- *ase LLM:*Qwen2.5
Coder7B ou Llama3.18B (já otimizados para código) - *ision encoder:*SigLIP
SoViT400M (open, boa resolução, eficiente) - *rojector:*MLP 2-layer (simples, funciona)
- *nstruction tuning:*500K exemplos focados em código visual (IDE screenshots, diagramas, UML, flowcharts)
*or que não Chameleon-style?*A tokenização de imagem via VQGAN perde detalhes críticos para código (símbolos, indentação visual, cores de syntax highlighting). O approach projector + encoder separado preserva mais informação visual.
Datasets prioritários para o Kode
- Screenshots de IDEs com código correspondente
- Diagramas UML/ERD com descrições textuais
- Output de terminal com comandos correspondentes
- Code diffs visuais (antes/depois)
- Documentação técnica com figuras e texto
Hardware mínimo
| Modelo | VRAM | GPU | Latência inferência |
|---|---|---|---|
| Qwen2.5 |
8 GB | RTX 3090/4090 | ~200ms/token |
| Qwen2.5 |
16 GB | RTX 3090/4090 | ~400ms/token |
| Llama |
24 GB | RTX 3090/4090 | ~600ms/token |
| InternVL2.5-26B | 48 GB | 2× A100 40GB | ~800ms/token |
Papers e Referências
| Paper | Autores | Venue | arXiv |
|---|---|---|---|
| Flamingo | Alayrac et al. | NeurIPS 2022 | arXiv:2204.14198 |
| Chameleon | Team Chameleon | Meta Tech Report | — |
| LLaVA | Liu et al. | NeurIPS 2023 | arXiv:2304.08485 |
| LLaVA-NeXT | Liu et al. | 2024 | arXiv:2401.12511 |
| InternVL2 | Chen et al. | 2024 | arXiv:2404.16821 |
| Qwen2-VL | Wang et al. | 2024 | arXiv:2409.12191 |
| Gemini 1.5 | Team Gemini | Google Tech Report | arXiv:2403.05530 |
| PaLI | Chen et al. | ICLR 2023 | arXiv:2209.06794 |
| SigLIP | Zhai et al. | CVPR 2023 | arXiv:2303.15343 |