Audio fala

IA em Áudio, Fala e Música

Reconhecimento de Fala (ASR)

Whisper (OpenAI, 2022–2024)

*rXiv:*2212.04356
*ados:*680K horas de áudio supervisionado da internet
*apacidade:*100 idiomas; transcrição + tradução; zero-shot robusto
*ariantes:*

Modelo	Parâmetros	Velocidade	WER (en)
Whisper Tiny	39M	32× RT	~5.9%
Whisper Base	74M	16× RT	~5.0%
Whisper Small	244M	6× RT	~4.3%
Whisper Medium	769M	2× RT	~3.5%
Whisper Large v3	1.55B	1× RT	~2.7%
Whisper Large v3 Turbo	809M	4× RT	~2.9%

*mplementações:*openai~~whisper, faster~~whisper (CTranslate2, 4× speedup), WhisperX (diarização)

Canary (NVIDIA, 2024)

*odelo:*CTC/RNN-T; 1B parâmetros
*estaque:*Supera Whisper Large v3 em inglês; 4 idiomas (ENDEES/FR)
*elocidade:*Mais rápido que Whisper Large

SeamlessM4T v2 (Meta, 2023)

*rXiv:*2312.05187
*apacidade:*ASR + S2T + S2S + T2TT em 101 idiomas
*estaque:*Tradução de fala para texto e fala para fala multilingue

Representações de Fala (Self-Supervised)

Wav2Vec 2.0 (Meta, 2020)

*rXiv:*2006.11477
*ecanismo:*Contrastive learning sobre features de áudio sem labels
*mpacto:*Fine-tuning com 10 min de dados rotulados → boa ASR
*so atual:*Base para modelos de fala em low-resource languages

HuBERT (Meta, 2021)

*rXiv:*2106.07447
*ecanismo:*Predição de clusters de features de áudio (inspirado em BERT)
*eatures:*Excelentes para TTS e voice conversion

SpeechBrain

*RL:*speechbrain.github.io
*oolkit:*Open-source para ASR, TTS, speaker recognition, VAD, enhancement

Codecs de Áudio Neural

EnCodec (Meta, 2022)

*rXiv:*2210.13438
*ecanismo:*Residual Vector Quantization (RVQ); comprime áudio em tokens discretos
*itrates:*1.5, 3, 6, 12, 24 kbps
*so:*Base para modelos de linguagem de áudio (AudioLM, MusicGen, VALL-E)

Mimi (Kyutai, 2024)

*rojeto Moshi:*Mimi é o codec do sistema de conversa em tempo real
*antagem:*Baixa latência; menor bitrate que EnCodec com similar qualidade

DAC — Descript Audio Codec (2023)

*rXiv:*2306.06546
*antagem:*Melhor qualidade que EnCodec em músicas e efeitos sonoros

Síntese de Voz (TTS)

F5-TTS (2024)

*rXiv:*2410.06885
*ecanismo:*Flow matching + Transformer (sem autoregressive)
*lonagem de voz:*Zero-shot com 3–5s de referência
*ualidade:*Estado da arte open-source em naturalidade

XTTS v2 (Coqui, 2023)

*pen-source:*Sim
*diomas:*17 idiomas; clonagem de voz zero-shot
*so:*Principal TTS open-source multilingual de qualidade

Kokoro (2024)

*arâmetros:*82M — extremamente pequeno
*ualidade:*Comparável a modelos 10× maiores em inglês
*icença:*Apache 2.0

Fish Speech (Fish Audio, 2024)

*diomas:*ENZHJP + outros
*ecanismo:*Codec language model sobre tokens VQVAE
*lonagem:*Zero-shot com 5s de referência

VALL-E (Microsoft, 2023)

*rXiv:*2301.02111
*ecanismo:*Language model sobre tokens EnCodec
*estaque:*Clonagem de voz em 3 segundos (primeiro paper a fazer isso de forma convincente)

ElevenLabs

*roprietário:*Líder comercial em clonagem de voz e TTS expressivo
*ualidade:*Melhor qualidade comercial em 2024

Conversação em Tempo Real (EndtoEnd)

Moshi (Kyutai, 2024)

*rXiv:*2410.00037
*aradigma:*Primeiro modelo de linguagem de fala totalmente endtoend
*ecanismo:*Processa e gera áudio diretamente (sem transcrição intermediária)
*atência:*~200ms (vs 1000ms+ em sistemas pipeline)
*ual stream:*Fala do usuário e fala do modelo em paralelo

GPT-4o Realtime API (OpenAI, 2024)

*ecanismo:*Áudio → GPT-4o → Áudio diretamente (sem Whisper/TTS)
*atência:*~300ms
*apacidade:*Entonação, interrupção, barge-in

Gemini Live (Google, 2024–2025)

*ultimodal:*Voz + vídeo em tempo real
*ntegração:*Android, Google Workspace

Ultravox (Fixie AI, 2024)

*rquitetura:*Whisper encoder + Mistral 7B; endtoend speechtospeech
*pen~~source:*Sim; referência open~~source para real-time voice

Geração de Música

MusicGen (Meta, 2023)

*rXiv:*2306.05284
*ecanismo:*Language model sobre tokens EnCodec condicionado por texto + melodia
*amanhos:*300M, 1.5B, 3.3B
*pen-source:*Apache 2.0

AudioLDM 2 (2023)

*rXiv:*2308.05734
*ecanismo:*Diffusion no espaço latente de áudio
*obre:*Música, efeitos sonoros, fala

Stable Audio (Stability AI, 2024)

*ecanismo:*Diffusion com condicionamento de duração
*esultado:*Áudio musical de alta fidelidade (44.1 kHz estéreo)

Suno AI / Udio (2024)

*roprietário:*Geração de músicas completas (voz + instrumentos) a partir de texto
*mpacto:*Democratizou criação musical; gerou debates sobre copyright

Voice Activity Detection (VAD)

Silero VAD

*so:*Detecta presença de fala em áudio em tempo real
*ntegração:*faster-whisper, Whisper.cpp, pipelines de ASR

Benchmarks de Áudio

Benchmark	Foco
LibriSpeech	ASR em inglês (leitura)
CommonVoice	ASR multilingual (open)
VoxCeleb	Speaker recognition
MusicCaps	Geração de música
DCASE	Detecção de eventos sonoros