Multimodal

Arquiteturas Multimodais Unificadas

Modelos que processam visão, linguagem e áudio em uma única arquitetura. Atualizado em abril de 2026.


Visão Geral

Arquiteturas multimodais unificadas tratam todos os inputs (texto, imagem, áudio, vídeo) como sequências de tokens em um único espaço de representação. Ao invés de ter um modelo de linguagem + um modelo de visão + um modelo de áudio separados, um único transformer processa tudo.

Isso traz três vantagens fundamentais:

  1. *ransferência cross-modal*— conhecimento aprendido em um domínio (ex: descrição de imagens) ajuda em outro (ex: geração de texto)
  2. *linhamento nativo*— não precisa de etapa extra para "alinhar" representações de diferentes modalidades
  3. *mergência*— capacidades que não existem em modelos unimodais surgem quando todos os dados são treinados juntos

Arquiteturas Principais

Flamingo (DeepMind, 2022)

Primeiro modelo a demonstrar que um LLM prétreinado pode aprender visão com poucos exemplos (fewshot) sem fine-tuning pesado.

Aspecto Detalhe
Base Chinchilla (70B) + Perceiver Resampler
Modalidades Texto + Imagem
Dados de treino 43B pares imagem-texto (LAION, COYO, Conceptual Captions)
Abordagem Congela o LLM, treina apenas o resampler visual e os tokens de interface
Resultado Zeroshot VQA, fewshot captioning com performance SOTA

*or que importa:*Provou que não é necessário treinar do zero — um LLM de linguagem pré-treinado pode "ganhar olhos" com treinamento relativamente leve do adapter visual.


Chameleon (Meta, 2024)

Primeiro modelo "misto" de verdade: tokens de texto e tokens de imagem vivem no *esmo vocabulário* permitindo geração interleaved (textoimagemtexto-imagem) nativa.

Aspecto Detalhe
Tamanho 7B e 34B
Modalidades Texto + Imagem (interleaved)
Vocabulário unificado Tokens de texto + tokens de imagem (VQGAN codebook) no mesmo espaço
Tokenização de imagem VQGAN com codebook de 8192 tokens
Treino Endtoend em dados interleaved (não alternando entre modalidades)
Licença Chameleon License (pesquisa comercial permitida, com restrições)

*rquitetura:*

Input → Tokenizer (texto) + VQGAN (imagem) → Espaço de tokens unificado
                                             ↓
                                        Transformer
                                             ↓
                                      Head de texto + Head de imagem

*imitação:*A tokenização de imagem via VQGAN perde resolução — imagens geradas são de qualidade moderada. Mas a capacidade de raciocinar sobre imagens e texto no mesmo espaço é revolucionária.


LLaVA-NeXT (Large Language and Vision Assistant, 2024–2026)

Evolução do LLaVA original, que conectava um encoder visual (CLIP) a um LLM (Llama/Vicuna) via um projector MLP simples.

Versão Base LLM Encoder Visual Destaques
LLaVA 1.5 (2023) Vicuna-7B/13B CLIP ViT-L/14 Primeira demo open de VLM de alta qualidade
LLaVA-NeXT 72B (2024) Llama370B SigLIP + AnyRes Resolução dinâmica, OCR forte
LLaVANeXTVideo (2024) Llama38B SigLIP Entende vídeo com pooling temporal
LLaVA-OneVision (2024) Qwen2-7B SigLIP-SoViT Single model: image + video + text
LLaVA-NeXT 34B (2025) Qwen2.5-32B SigLIP SOTA open em VQA e document understanding

*nyRes (resolução dinâmica):*Ao invés de redimensionar a imagem para um tamanho fixo (ex: 336×336), AnyRes divide a imagem em patches e processa cada um separadamente, depois agrega. Isso permite entender imagens de alta resolução sem blow-up computacional.

*ara o Kode:*LLaVANeXT com Qwen2.5Coder como base LLM é o candidato mais forte para um VLM de código — capaz de entender screenshots de IDE, diagramas, e código visual.


InternVL2 / InternVL2.5 (Shanghai AI Lab, 2024–2025)

Versão Parâmetros Contexto Destaques
InternVL2 26B 26B (LLM 7B + Vision 19B) 12K SOTA open em MMMU, DocVQA
InternVL2.5 78B 78B (LLM 70B + Vision 8B) 128K Melhor VLM open em benchmarks gerais
InternVL2.5 8B 8B 12K Leve, roda em GPU consumer

*rquitetura:*SigLIP (vision encoder) + projector MLP + Qwen2/InternLM2 (LLM). Treinado em 10M+ de pares imagem-texto com dados de alta qualidade (curadoria manual + filtragem).

*onto forte:*OCR e document understanding — InternVL2.5 supera GPT4o em DocVQA e ChartQA em várias subtarefas.


Qwen2.5-VL (Alibaba, 2025)

Parâmetros Contexto Resolução Licença
3B 128K Dinâmica (até 1536×1536) Apache 2.0
7B 128K Dinâmica Apache 2.0
32B 128K Dinâmica Qwen License

*estaques:*

  • *ynamic resolution:*processa imagens em resolução nativa sem cropping
  • *CR multilingual:*entende texto em 30+ idiomas dentro de imagens
  • *ideo understanding:*processa até 20 minutos de vídeo com pooling temporal
  • *UI agent:*trained para interagir com interfaces gráficas (clica, digita, navega)

*ara o Kode:*Qwen2.5VL7B é o melhor VLM open para código no momento. Integra bem com o ecossistema Qwen e tem licença permissiva.


Gemini 1.5/2.0 (Google, 2024–2026)

Modelo proprietário mas referência arquitetural.

Versão Modalidades Contexto Destaques
Gemini 1.5 Pro Texto, imagem, áudio, vídeo 1M+ tokens Primeiro modelo com 1M context nativo
Gemini 1.5 Flash Texto, imagem, áudio, vídeo 1M+ tokens Versão leve, latência baixa
Gemini 2.0 Texto, imagem, áudio, vídeo 2M+ Multimodal nativo desde o pré-treino

*rquitetura:*Transformer com MoE nativo, tokenização multimodal unificada (texto → subwords, imagem → patches, áudio → frames, vídeo → frames temporais). Todos os tokens vivem no mesmo embedding space.

*ição arquitetural:*A chave do Gemini é o *ré-treino multimodal conjunto*— não é "LLM + adapter visual", é um único modelo treinado em texto + imagem + áudio + vídeo desde o início.


PaLI (Pathways Language and Image, Google, 2022–2023)

Versão Parâmetros Modalidades
PaLI 17B Texto + Imagem
PaLI-2 5B Texto + Imagem
PaLI-3 55B Texto + Imagem
PaLI-X 55B Texto + Imagem

*bordagem:*Usa T5 como base e adiciona um ViT como encoder visual, com um "bridge" que projeta features visuais no espaço de embeddings do T5.

*ontribuição:*Demonstrou que scaling funciona para multimodal da mesma forma que funciona para texto puro — mais dados + mais parâmetros = melhoria consistente.


Meta Chameleon vs. Llama 3.2 Vision

Aspecto Chameleon Llama 3.2 Vision
Tokenização Vocabulário unificado (texto + imagem) Separate encoders + projector
Treino Interleaved endtoend Fine-tuning de Llama 3 com dados visuais
Geração de imagem Sim (nativa) Não (só entende imagens)
Licença Restritiva Llama License (permissiva)
Praticidade Experimental Produção

*ara o Kode:*Llama 3.2 Vision (11B e 90B) é mais prático porque tem licença permissiva e já é otimizado para deploy. Chameleon é mais interessante como referência arquitetural.


Comparativo de Abordagens

Abordagem Exemplo Vantagem Desvantagem
*dapter (freeze LLM)* Flamingo Rápido, barato, preserva capacidade de linguagem Não melhora o LLM, só adiciona visão
*rojector MLP* LLaVA, InternVL Simples, funciona bem, open-source Desalinhamento potencial entre vision e language
*ocabulário unificado* Chameleon Geração multimodal nativa, interleaved Complexo, perda de qualidade visual (VQGAN)
*ré-treino multimodal nativo* Gemini, PaLI Alinhamento perfeito, transferência máxima Custo de treino altíssimo

Treinamento Multimodal — Pipeline Típico

Fase 1: Pré-treino do vision encoder
  → CLIP/SigLIP em pares imagem-texto (400M–4B pares)

Fase 2: Pré-treino do LLM
  → Texto puro (1T–10T tokens)

Fase 3: Alignment projector
  → Congela vision encoder + LLM, treina apenas o projector
  → Dados: 10M–100M pares imagem-texto

Fase 4: Instruction tuning multimodal
  → SFT com instruções visuais (VQA, captioning, reasoning)
  → ~500K–2M exemplos

Fase 5: Preference optimization (opcional)
  → DPO/RLHF com recompensas visuais

*usto estimado para um VLM 7B:*

  • Fase 3: ~50 GPU-hours A100
  • Fase 4: ~200 GPU-hours A100
  • Fase 5: ~100 GPU-hours A100
  • *otal: ~350 A100-hours ≈ R$ 50–150K (depende do provedor)*

Datasets Multimodais

Dataset Tamanho Conteúdo Uso
LAION-5B 5.8B pares Imagem + alt-text Pré-treino vision encoder
COYO-700M 700M pares Imagem + descrição rica Pré-treino
Conceptual Captions 3.3M pares Imagem + caption Fine-tuning
Visual Genome 108K imagens Imagem + QA + relações Fine-tuning, eval
DocVQA 50K docs Documentos + QA Eval
MMMU 11K questões Imagens acadêmicas + QA Eval
MME 2.3K imagens Benchmark multimodal Eval
LLaVAInstruct150K 150K exemplos Imagem + instrução + resposta Instruction tuning
ShareGPT4V 1.2M exemplos Imagem + conversação Instruction tuning

Para o Kode

Recomendação de arquitetura

Para um VLM próprio da Koder:

  1. *ase LLM:*Qwen2.5Coder7B ou Llama3.18B (já otimizados para código)
  2. *ision encoder:*SigLIPSoViT400M (open, boa resolução, eficiente)
  3. *rojector:*MLP 2-layer (simples, funciona)
  4. *nstruction tuning:*500K exemplos focados em código visual (IDE screenshots, diagramas, UML, flowcharts)

*or que não Chameleon-style?*A tokenização de imagem via VQGAN perde detalhes críticos para código (símbolos, indentação visual, cores de syntax highlighting). O approach projector + encoder separado preserva mais informação visual.

Datasets prioritários para o Kode

  • Screenshots de IDEs com código correspondente
  • Diagramas UML/ERD com descrições textuais
  • Output de terminal com comandos correspondentes
  • Code diffs visuais (antes/depois)
  • Documentação técnica com figuras e texto

Hardware mínimo

Modelo VRAM GPU Latência inferência
Qwen2.5VL3B 8 GB RTX 3090/4090 ~200ms/token
Qwen2.5VL7B 16 GB RTX 3090/4090 ~400ms/token
Llama3.2Vision-11B 24 GB RTX 3090/4090 ~600ms/token
InternVL2.5-26B 48 GB 2× A100 40GB ~800ms/token

Papers e Referências

Paper Autores Venue arXiv
Flamingo Alayrac et al. NeurIPS 2022 arXiv:2204.14198
Chameleon Team Chameleon Meta Tech Report
LLaVA Liu et al. NeurIPS 2023 arXiv:2304.08485
LLaVA-NeXT Liu et al. 2024 arXiv:2401.12511
InternVL2 Chen et al. 2024 arXiv:2404.16821
Qwen2-VL Wang et al. 2024 arXiv:2409.12191
Gemini 1.5 Team Gemini Google Tech Report arXiv:2403.05530
PaLI Chen et al. ICLR 2023 arXiv:2209.06794
SigLIP Zhai et al. CVPR 2023 arXiv:2303.15343

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/02-arquiteturas/multimodal.md