Paradigmas alternativos
Paradigmas Alternativos ao Deep Learning Denso
Linhas de pesquisa que rejeitam ou modificam premissas centrais do mainstream (rede neural diferenciável + backprop + escala). Relevantes quando o gargalo é *emória, energia, interpretabilidade ou raciocÃnio simbólico*— não puro desempenho em benchmarks de linguagem.
*ota de processo:*este arquivo é atualizado por
/k-ia-compendiumvia Camada D (busca explÃcita por novidades em cada linha listada abaixo).
Neurosimbólico (Neuro-Symbolic AI)
Combina aprendizado neural (pattern matching, perception) com raciocÃnio simbólico (regras, lógica, busca). Premissa: tarefas de raciocÃnio estruturado (matemática, programação, planejamento) se beneficiam mais de uma camada simbólica do que de mais parâmetros.
AlphaGeometry / AlphaGeometry 2
- *aper:*Nature 625, 476–482 (2024) | *eepMind*
- *ecanismo:*LLM gera "auxiliary constructions" (intuição) + provador simbólico verifica/deduz (rigor). Loop até prova fechar.
- *esultado:*2530 problemas IMO 2000-2022 (nÃvel medalha de ouro) — anterior SOTA: 1030.
- *lphaGeometry 2 (2025):*ampliação do domÃnio + LLM Gemini-based; resolveu IMO 2024 P4.
- *ição:*~100M params neural + provador simbólico bate transformer 100B+ puro em geometria olÃmpica.
AlphaProof
- *eepMind, 2024*— versão para álgebra/teoria dos números via Lean 4.
- *ecanismo:*AlphaZero-style RL sobre o espaço de provas em Lean; LLM propõe táticas, solver verifica.
- *esultado:*prata IMO 2024 (4/6 problemas).
DreamCoder
- *rXiv:*2006.08381 | Ellis, Solar-Lezama (MIT/CSAIL)
- *ecanismo:*"wake-sleep" alternando sÃntese de programas (busca) + abstração de subprogramas reutilizáveis (aprendizado de biblioteca).
- *omÃnios:*lista, gráficos LOGO, regex, fÃsica simbólica.
- *antagem:*aprende *iblioteca de conceitos*explÃcita; cada conceito é um programa legÃvel.
Differentiable Inductive Logic (∂ILP / NS-CL)
- *ˆ‚ILP:*arXiv:1711.04574 — programa Prolog cujos pesos são diferenciáveis; aprende regras de exemplos.
- *euro-Symbolic Concept Learner*(Mao et al., ICLR 2019) — VQA com perception neural + reasoning simbólico.
- *ogic Tensor Networks (LTNs)*— Serafini & d'Avila Garcez, AAAI 2016 — fórmulas de lógica de primeira ordem com semântica fuzzy diferenciável.
Para o Kode
- Útil pra módulos onde *egras são conhecidas e fixas*(contabilidade, regras tributárias BR, validação ICP
Brasil) — neurosimbólico pode entregar accuracy alta com modelo pequeno + auditabilidade. - Não substitui LLM geral; complementa em tarefas estruturadas.
Tsetlin Machines
Aprendizado baseado em *ógica proposicional*(cláusulas conjuntivas) controlado por *utômatos de Tsetlin*— não usa gradientes, não usa redes neurais.
Original Tsetlin Machine
- *rXiv:*1804.01508 | Ole-Christoffer Granmo (Univ. Agder)
- *ecanismo:*N autômatos por feature decidem incluirexcluir cada literal em cláusulas; recompensapunição por feedback Type I/II.
- *antagens:*
- Modelo é *onjunto de cláusulas booleanas legÃveis*(interpretável por construção)
- Roda em microcontrolador (kB de RAM, sem FPU)
- Treino em CPU competitivo com SVM/Random Forest em tabular
Variantes recentes
- *onvolutional Tsetlin Machine*(arXiv:1905.09688) — competitivo com CNN em MNISTFashion-MNISTCIFAR-10.
- *oalesced TM*(arXiv:2108.07594) — compartilhamento de cláusulas entre classes; reduz memória 5-10×.
- *omposite TM*/ *lug
andPlay TM*(2024-2026) — combina múltiplas TMs especializadas. - *raph Tsetlin Machine*(2025) — grafos heterogêneos com cláusulas estruturais.
Hardware
- *ignon AI*(spin
off de Agder, 2024) — chip Tsetlin nativo, inferência submW. - *mplementações FPGA*abertas (github.com/cair).
Para o Kode
- Candidato pra *dge inference*em variantes mobileTVwearable quando latência <1ms e bateria importam mais que SOTA absoluto.
- Útil pra modelos *xplicáveis sob LGPD/AI Act*— cláusulas são auditáveis diretamente.
Hyperdimensional Computing / Vector Symbolic Architectures (HDC/VSA)
Representação como *ipervetores*de 10.000+ dimensões binários/bipolares; semântica via operações algébricas (bind, bundle, permute) em vez de aprendizado por gradiente.
Fundamentos
- *anerva, P.*(2009) — Hyperdimensional Computing — manifesto original
- *ensor Product Representations*(Smolensky 1990) — antecessor
- *olographic Reduced Representations*(Plate 1995) — variante HRR
Frameworks modernos
- *orchhd*(Heddes et al., JMLR 2023) — biblioteca PyTorch para HDC; benchmarks em UCI, EuroSAT, ISOLET, EMG.
- *penHD*(UC Irvine) — runtime HDC para CPU/FPGA.
Aplicações práticas
- *lassificação de sinais biomédicos*(ECG, EMG, EEG) com one
shot ou fewshot learning. - *earables*(Apple/Samsung research papers 2024
2025) — gesture recognition + activity classification em chips CortexM. - *emória associativa robusta a ruÃdo*— graceful degradation com 10-30% de bit flips.
Vantagens vs deep learning
- *ne
shot learning*sem finetuning - *odelo aritmético*(sem treino iterativo); minutos em CPU vs horas em GPU
- *nerentemente paralelizável*em hardware customizado
Para o Kode
- Candidato para *etecção de eventos on
device*(toque, gesto, wakeword complementar) quando model size precisa estar abaixo de 100KB. - Spec relevante:
specs/voice/wake-word.kmdpoderia ganhar backend HDC alternativo ao TFLite.
Algoritmos de Aprendizado Alternativos ao Backprop
Forward-Forward Algorithm
- *inton (2022)*— The Forward-Forward Algorithm: Some Preliminary Investigations
- *ecanismo:*substitui forward+backward por *ois forwards*— um com dados positivos (real), outro com negativos (sintético/embaralhado); cada camada maximiza "goodness" para positivos e minimiza para negativos.
- *antagens:*
- Não precisa armazenar ativações para backward → memória O(1) na profundidade
- Mapeia diretamente em hardware neuromórfico ([[neuromorfico]])
- Permite treino layer
bylayer assÃncrono
- *imitação atual:*ainda atrás de backprop em accuracy; ativo em pesquisa (várias extensões 2023-2025).
Predictive Coding (PC)
- *ierarchical Predictive Coding*(Rao & Ballard 1999; Friston 2005)
- *C Networks*(Whittington & Bogacz 2017; Millidge et al. 2022) — aproximam backprop com regras locais hebbianas.
- *onexão com biologia:*considerado modelo plausÃvel do córtex visual.
Equilibrium Propagation
- *cellier & Bengio (2017)*— sistemas fÃsicos relaxando para mÃnimo de energia computam gradientes localmente.
- Conecta com Energy-Based Models e analog computing.
Para o Kode
- Não usar em produção hoje. *companhar:*se hardware neuromórfico amadurecer, esses algoritmos viram a única opção viável de treino on-chip.
Energy-Based Models (EBMs) e Hopfield Moderno
Modelos definidos por uma função de energia \(E(x)\) — inferência = encontrar \(x\) que minimiza \(E\).
Modern Hopfield Networks
- *amsauer et al. (ICLR 2021)*— Hopfield Networks Is All You Need (arXiv:2008.02217)
- *esultado:*Hopfield contÃnuo com função de energia exponencial tem *apacidade exponencial*(vs linear da versão clássica) e suas regras de atualização são *quivalentes à atenção do Transformer*
- *mplicação teórica:*atenção = associative memory; abre porta para EBM-based attention.
EBM modernos (Yann LeCun)
- LeCun advoga EBM como framework unificador desde 2006; reforçou em 2022 com A Path Towards Autonomous Machine Intelligence.
- *EPA*(próxima seção) é a expressão atual da agenda EBM da Meta.
Joint Energy Models (JEM)
- Grathwohl et al. (ICLR 2020) — classifier também é generativo via \(p(x,y) \propto e^{-E(x,y)}\).
Joint Embedding Predictive Architectures (JEPA)
Aprende *epresentações latentes*prevendo embeddings (não pixels/tokens) — abordagem *ãogenerativa*de selfsupervised learning.
IJEPA (ImageJEPA)
- *rXiv:*2301.08243 | Meta / LeCun group
- *ecanismo:*predict embedding de patches mascarados a partir de patches visÃveis, no espaço latente de um encoder.
- *esultado:*competitivo com MAE/iBOT usando *uito menos compute*
VJEPA / VJEPA 2
- *-JEPA*(Bardes et al., 2024) — vÃdeo; aprende dinâmica temporal.
- *
JEPA 2*(Meta, 2025) — treinado em 2M+ horas de vÃdeo; *ransferência zeroshot para controle robótico*
Vantagens vs paradigmas generativos
- *ão desperdiça capacidade*prevendo pixels irrelevantes (textura, ruÃdo)
- *ais data-efficient*que MAE/MIM
- *oco em representação* não geração — alinhado com a visão "world model" de LeCun
Conexão com world models
Ver também 09-aplicacoes/video-3d-world-models.md (DreamerV3, Genie 2, Cosmos).
Para o Kode
- Relevante se algum dia o Stack precisar de *ision encoder próprio*(Eye 2.0, screen understanding, video moderation) — JEPA é mais compute
eficiente que CLIP/SigLIP para pretraining do zero.
Active Inference / Free Energy Principle
Framework de Karl Friston (UCL) unificando percepção, ação e aprendizado sob um único princÃpio: *inimizar surpresa*(free energy variacional).
Premissa
Agente mantém modelo generativo do mundo; age para reduzir discrepância entre predições e observações. Backprop deep learning é caso especial.
Implementações práticas recentes
- *ymdp*(Heins et al., JOSS 2022) — biblioteca Python para Active Inference em POMDPs discretos.
- *ERSES AI*(2023-2026) — empresa comercializando Active Inference (Genius platform); claims de eficiência radicalmente superior a RL clássico em alguns benchmarks.
- *eep Active Inference*(Çatal, Tschantz et al., 2020-2024) — combina VAE/transformer com Active Inference no objetivo.
Estado em 2026
- Promissor teoricamente; *doção prática ainda nicho*(robótica, neurociência computacional).
- Ainda sem "ChatGPT moment" próprio.
Para o Kode
- Não acionável hoje. Acompanhar VERSES e papers de robótica/agentes — se aparecer caso de uso onde supera RL clássico com ordens de magnitude menos dados, reavaliar.
Quadro comparativo
| Paradigma | Memória | Treino | Interpretável | Hardware ideal | Maturidade 2026 |
|---|---|---|---|---|---|
| Neurosimbólico | Médio (LLM + symbolic) | HÃbrido | Alta (regras) | GPU + CPU | Prod (AlphaGeometry-class) |
| Tsetlin Machines | Muito baixo (kB) | Lógico (sem grad) | Total (cláusulas) | CPU / FPGA / Mignon | Nicho prod |
| HDC / VSA | Baixo (~100KB) | Aritmético | Médio | CPU / FPGA / wearable | Nicho prod |
| Forward-Forward | Muito baixo (O(1) prof.) | Local | Baixo | Neuromórfico | Pesquisa |
| Predictive Coding | Baixo | Local hebbiano | Médio | Neuromórfico | Pesquisa |
| Energy-Based | Alto (treino) | Variacional | Médio | GPU | Teórico maduro |
| JEPA | Médio | SSL backprop | Baixo | GPU | Produção (Meta) |
| Active Inference | Variável | Variacional | Alta (modelo gen.) | CPU/GPU | Nicho |
Recomendação consolidada para o Kode
*urto prazo (próximos 12 meses):*nenhum desses paradigmas substitui a stack LLM+MoE+Transformer. Monitorar.
*édio prazo (1236 meses):*se variantes wearable / TV / mobile precisarem de inferência <1mW ou <100KB, *setlin Machines + HDC*entram como candidatos sérios — possivelmente via side.engines/sdk/koder_kit android
*ongo prazo / oportunista:**eurosimbólico*é a aposta mais consequente para a Stack Koder — alinha com o objetivo de IA auditável + LGPD/AI Act friendly em domÃnios fortemente regulados (saúde pública, perÃcia digital, contabilidade BR).
*companhar com prioridade:*AlphaGeometry-class systems, VERSES claims, qualquer paper Tsetlin com performance >90% em benchmark padrão.