Audio fala
IA em Áudio, Fala e Música
Reconhecimento de Fala (ASR)
Whisper (OpenAI, 2022–2024)
- *rXiv:*2212.04356
- *ados:*680K horas de áudio supervisionado da internet
- *apacidade:*100 idiomas; transcrição + tradução; zero-shot robusto
- *ariantes:*
| Modelo | Parâmetros | Velocidade | WER (en) |
|---|---|---|---|
| Whisper Tiny | 39M | 32× RT | ~5.9% |
| Whisper Base | 74M | 16× RT | ~5.0% |
| Whisper Small | 244M | 6× RT | ~4.3% |
| Whisper Medium | 769M | 2× RT | ~3.5% |
| Whisper Large v3 | 1.55B | 1× RT | ~2.7% |
| Whisper Large v3 Turbo | 809M | 4× RT | ~2.9% |
- *mplementações:*openai
whisper, fasterwhisper (CTranslate2, 4× speedup), WhisperX (diarização)
Canary (NVIDIA, 2024)
- *odelo:*CTC/RNN-T; 1B parâmetros
- *estaque:*Supera Whisper Large v3 em inglês; 4 idiomas (ENDEES/FR)
- *elocidade:*Mais rápido que Whisper Large
SeamlessM4T v2 (Meta, 2023)
- *rXiv:*2312.05187
- *apacidade:*ASR + S2T + S2S + T2TT em 101 idiomas
- *estaque:*Tradução de fala para texto e fala para fala multilingue
Representações de Fala (Self-Supervised)
Wav2Vec 2.0 (Meta, 2020)
- *rXiv:*2006.11477
- *ecanismo:*Contrastive learning sobre features de áudio sem labels
- *mpacto:*Fine-tuning com 10 min de dados rotulados → boa ASR
- *so atual:*Base para modelos de fala em low-resource languages
HuBERT (Meta, 2021)
- *rXiv:*2106.07447
- *ecanismo:*Predição de clusters de features de áudio (inspirado em BERT)
- *eatures:*Excelentes para TTS e voice conversion
SpeechBrain
- *RL:*speechbrain.github.io
- *oolkit:*Open-source para ASR, TTS, speaker recognition, VAD, enhancement
Codecs de Áudio Neural
EnCodec (Meta, 2022)
- *rXiv:*2210.13438
- *ecanismo:*Residual Vector Quantization (RVQ); comprime áudio em tokens discretos
- *itrates:*1.5, 3, 6, 12, 24 kbps
- *so:*Base para modelos de linguagem de áudio (AudioLM, MusicGen, VALL-E)
Mimi (Kyutai, 2024)
- *rojeto Moshi:*Mimi é o codec do sistema de conversa em tempo real
- *antagem:*Baixa latência; menor bitrate que EnCodec com similar qualidade
DAC — Descript Audio Codec (2023)
- *rXiv:*2306.06546
- *antagem:*Melhor qualidade que EnCodec em músicas e efeitos sonoros
Síntese de Voz (TTS)
F5-TTS (2024)
- *rXiv:*2410.06885
- *ecanismo:*Flow matching + Transformer (sem autoregressive)
- *lonagem de voz:*Zero-shot com 3–5s de referência
- *ualidade:*Estado da arte open-source em naturalidade
XTTS v2 (Coqui, 2023)
- *pen-source:*Sim
- *diomas:*17 idiomas; clonagem de voz zero-shot
- *so:*Principal TTS open-source multilingual de qualidade
Kokoro (2024)
- *arâmetros:*82M — extremamente pequeno
- *ualidade:*Comparável a modelos 10× maiores em inglês
- *icença:*Apache 2.0
Fish Speech (Fish Audio, 2024)
- *diomas:*ENZHJP + outros
- *ecanismo:*Codec language model sobre tokens VQVAE
- *lonagem:*Zero-shot com 5s de referência
VALL-E (Microsoft, 2023)
- *rXiv:*2301.02111
- *ecanismo:*Language model sobre tokens EnCodec
- *estaque:*Clonagem de voz em 3 segundos (primeiro paper a fazer isso de forma convincente)
ElevenLabs
- *roprietário:*Líder comercial em clonagem de voz e TTS expressivo
- *ualidade:*Melhor qualidade comercial em 2024
Conversação em Tempo Real (EndtoEnd)
Moshi (Kyutai, 2024)
- *rXiv:*2410.00037
- *aradigma:*Primeiro modelo de linguagem de fala totalmente end
toend - *ecanismo:*Processa e gera áudio diretamente (sem transcrição intermediária)
- *atência:*~200ms (vs 1000ms+ em sistemas pipeline)
- *ual stream:*Fala do usuário e fala do modelo em paralelo
GPT-4o Realtime API (OpenAI, 2024)
- *ecanismo:*Áudio → GPT-4o → Áudio diretamente (sem Whisper/TTS)
- *atência:*~300ms
- *apacidade:*Entonação, interrupção, barge-in
Gemini Live (Google, 2024–2025)
- *ultimodal:*Voz + vídeo em tempo real
- *ntegração:*Android, Google Workspace
Ultravox (Fixie AI, 2024)
- *rquitetura:*Whisper encoder + Mistral 7B; end
toend speechtospeech - *pen
source:*Sim; referência opensource para real-time voice
Geração de Música
MusicGen (Meta, 2023)
- *rXiv:*2306.05284
- *ecanismo:*Language model sobre tokens EnCodec condicionado por texto + melodia
- *amanhos:*300M, 1.5B, 3.3B
- *pen-source:*Apache 2.0
AudioLDM 2 (2023)
- *rXiv:*2308.05734
- *ecanismo:*Diffusion no espaço latente de áudio
- *obre:*Música, efeitos sonoros, fala
Stable Audio (Stability AI, 2024)
- *ecanismo:*Diffusion com condicionamento de duração
- *esultado:*Áudio musical de alta fidelidade (44.1 kHz estéreo)
Suno AI / Udio (2024)
- *roprietário:*Geração de músicas completas (voz + instrumentos) a partir de texto
- *mpacto:*Democratizou criação musical; gerou debates sobre copyright
Voice Activity Detection (VAD)
Silero VAD
- *so:*Detecta presença de fala em áudio em tempo real
- *ntegração:*faster-whisper, Whisper.cpp, pipelines de ASR
Benchmarks de Áudio
| Benchmark | Foco |
|---|---|
| LibriSpeech | ASR em inglês (leitura) |
| CommonVoice | ASR multilingual (open) |
| VoxCeleb | Speaker recognition |
| MusicCaps | Geração de música |
| DCASE | Detecção de eventos sonoros |