Audio fala

IA em Áudio, Fala e Música

Reconhecimento de Fala (ASR)

Whisper (OpenAI, 2022–2024)

  • *rXiv:*2212.04356
  • *ados:*680K horas de áudio supervisionado da internet
  • *apacidade:*100 idiomas; transcrição + tradução; zero-shot robusto
  • *ariantes:*
Modelo Parâmetros Velocidade WER (en)
Whisper Tiny 39M 32× RT ~5.9%
Whisper Base 74M 16× RT ~5.0%
Whisper Small 244M 6× RT ~4.3%
Whisper Medium 769M 2× RT ~3.5%
Whisper Large v3 1.55B 1× RT ~2.7%
Whisper Large v3 Turbo 809M 4× RT ~2.9%
  • *mplementações:*openaiwhisper, fasterwhisper (CTranslate2, 4× speedup), WhisperX (diarização)

Canary (NVIDIA, 2024)

  • *odelo:*CTC/RNN-T; 1B parâmetros
  • *estaque:*Supera Whisper Large v3 em inglês; 4 idiomas (ENDEES/FR)
  • *elocidade:*Mais rápido que Whisper Large

SeamlessM4T v2 (Meta, 2023)

  • *rXiv:*2312.05187
  • *apacidade:*ASR + S2T + S2S + T2TT em 101 idiomas
  • *estaque:*Tradução de fala para texto e fala para fala multilingue

Representações de Fala (Self-Supervised)

Wav2Vec 2.0 (Meta, 2020)

  • *rXiv:*2006.11477
  • *ecanismo:*Contrastive learning sobre features de áudio sem labels
  • *mpacto:*Fine-tuning com 10 min de dados rotulados → boa ASR
  • *so atual:*Base para modelos de fala em low-resource languages

HuBERT (Meta, 2021)

  • *rXiv:*2106.07447
  • *ecanismo:*Predição de clusters de features de áudio (inspirado em BERT)
  • *eatures:*Excelentes para TTS e voice conversion

SpeechBrain

  • *RL:*speechbrain.github.io
  • *oolkit:*Open-source para ASR, TTS, speaker recognition, VAD, enhancement

Codecs de Áudio Neural

EnCodec (Meta, 2022)

  • *rXiv:*2210.13438
  • *ecanismo:*Residual Vector Quantization (RVQ); comprime áudio em tokens discretos
  • *itrates:*1.5, 3, 6, 12, 24 kbps
  • *so:*Base para modelos de linguagem de áudio (AudioLM, MusicGen, VALL-E)

Mimi (Kyutai, 2024)

  • *rojeto Moshi:*Mimi é o codec do sistema de conversa em tempo real
  • *antagem:*Baixa latência; menor bitrate que EnCodec com similar qualidade

DAC — Descript Audio Codec (2023)

  • *rXiv:*2306.06546
  • *antagem:*Melhor qualidade que EnCodec em músicas e efeitos sonoros

Síntese de Voz (TTS)

F5-TTS (2024)

  • *rXiv:*2410.06885
  • *ecanismo:*Flow matching + Transformer (sem autoregressive)
  • *lonagem de voz:*Zero-shot com 3–5s de referência
  • *ualidade:*Estado da arte open-source em naturalidade

XTTS v2 (Coqui, 2023)

  • *pen-source:*Sim
  • *diomas:*17 idiomas; clonagem de voz zero-shot
  • *so:*Principal TTS open-source multilingual de qualidade

Kokoro (2024)

  • *arâmetros:*82M — extremamente pequeno
  • *ualidade:*Comparável a modelos 10× maiores em inglês
  • *icença:*Apache 2.0

Fish Speech (Fish Audio, 2024)

  • *diomas:*ENZHJP + outros
  • *ecanismo:*Codec language model sobre tokens VQVAE
  • *lonagem:*Zero-shot com 5s de referência

VALL-E (Microsoft, 2023)

  • *rXiv:*2301.02111
  • *ecanismo:*Language model sobre tokens EnCodec
  • *estaque:*Clonagem de voz em 3 segundos (primeiro paper a fazer isso de forma convincente)

ElevenLabs

  • *roprietário:*Líder comercial em clonagem de voz e TTS expressivo
  • *ualidade:*Melhor qualidade comercial em 2024

Conversação em Tempo Real (EndtoEnd)

Moshi (Kyutai, 2024)

  • *rXiv:*2410.00037
  • *aradigma:*Primeiro modelo de linguagem de fala totalmente endtoend
  • *ecanismo:*Processa e gera áudio diretamente (sem transcrição intermediária)
  • *atência:*~200ms (vs 1000ms+ em sistemas pipeline)
  • *ual stream:*Fala do usuário e fala do modelo em paralelo

GPT-4o Realtime API (OpenAI, 2024)

  • *ecanismo:*Áudio → GPT-4o → Áudio diretamente (sem Whisper/TTS)
  • *atência:*~300ms
  • *apacidade:*Entonação, interrupção, barge-in

Gemini Live (Google, 2024–2025)

  • *ultimodal:*Voz + vídeo em tempo real
  • *ntegração:*Android, Google Workspace

Ultravox (Fixie AI, 2024)

  • *rquitetura:*Whisper encoder + Mistral 7B; endtoend speechtospeech
  • *pensource:*Sim; referência opensource para real-time voice

Geração de Música

MusicGen (Meta, 2023)

  • *rXiv:*2306.05284
  • *ecanismo:*Language model sobre tokens EnCodec condicionado por texto + melodia
  • *amanhos:*300M, 1.5B, 3.3B
  • *pen-source:*Apache 2.0

AudioLDM 2 (2023)

  • *rXiv:*2308.05734
  • *ecanismo:*Diffusion no espaço latente de áudio
  • *obre:*Música, efeitos sonoros, fala

Stable Audio (Stability AI, 2024)

  • *ecanismo:*Diffusion com condicionamento de duração
  • *esultado:*Áudio musical de alta fidelidade (44.1 kHz estéreo)

Suno AI / Udio (2024)

  • *roprietário:*Geração de músicas completas (voz + instrumentos) a partir de texto
  • *mpacto:*Democratizou criação musical; gerou debates sobre copyright

Voice Activity Detection (VAD)

Silero VAD

  • *so:*Detecta presença de fala em áudio em tempo real
  • *ntegração:*faster-whisper, Whisper.cpp, pipelines de ASR

Benchmarks de Áudio

Benchmark Foco
LibriSpeech ASR em inglês (leitura)
CommonVoice ASR multilingual (open)
VoxCeleb Speaker recognition
MusicCaps Geração de música
DCASE Detecção de eventos sonoros

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/09-aplicacoes/audio-fala.md