Paradigmas alternativos

Paradigmas Alternativos ao Deep Learning Denso

Linhas de pesquisa que rejeitam ou modificam premissas centrais do mainstream (rede neural diferenciável + backprop + escala). Relevantes quando o gargalo é *emória, energia, interpretabilidade ou raciocínio simbólico*— não puro desempenho em benchmarks de linguagem.

*ota de processo:*este arquivo é atualizado por /k-ia-compendium via Camada D (busca explícita por novidades em cada linha listada abaixo).

Neurosimbólico (Neuro-Symbolic AI)

Combina aprendizado neural (pattern matching, perception) com raciocínio simbólico (regras, lógica, busca). Premissa: tarefas de raciocínio estruturado (matemática, programação, planejamento) se beneficiam mais de uma camada simbólica do que de mais parâmetros.

AlphaGeometry / AlphaGeometry 2

*aper:*Nature 625, 476–482 (2024) | *eepMind*
*ecanismo:*LLM gera "auxiliary constructions" (intuição) + provador simbólico verifica/deduz (rigor). Loop até prova fechar.
*esultado:*2530 problemas IMO 2000-2022 (nível medalha de ouro) — anterior SOTA: 1030.
*lphaGeometry 2 (2025):*ampliação do domínio + LLM Gemini-based; resolveu IMO 2024 P4.
*ição:*~100M params neural + provador simbólico bate transformer 100B+ puro em geometria olímpica.

AlphaProof

*eepMind, 2024*— versão para álgebra/teoria dos números via Lean 4.
*ecanismo:*AlphaZero-style RL sobre o espaço de provas em Lean; LLM propõe táticas, solver verifica.
*esultado:*prata IMO 2024 (4/6 problemas).

DreamCoder

*rXiv:*2006.08381 | Ellis, Solar-Lezama (MIT/CSAIL)
*ecanismo:*"wake-sleep" alternando síntese de programas (busca) + abstração de subprogramas reutilizáveis (aprendizado de biblioteca).
*omínios:*lista, gráficos LOGO, regex, física simbólica.
*antagem:*aprende *iblioteca de conceitos*explícita; cada conceito é um programa legível.

Differentiable Inductive Logic (∂ILP / NS-CL)

*��ILP:*arXiv:1711.04574 — programa Prolog cujos pesos são diferenciáveis; aprende regras de exemplos.
*euro-Symbolic Concept Learner*(Mao et al., ICLR 2019) — VQA com perception neural + reasoning simbólico.
*ogic Tensor Networks (LTNs)*— Serafini & d'Avila Garcez, AAAI 2016 — fórmulas de lógica de primeira ordem com semântica fuzzy diferenciável.

Para o Kode

Útil pra módulos onde *egras são conhecidas e fixas*(contabilidade, regras tributárias BR, validação ICP~~Brasil) — neuro~~simbólico pode entregar accuracy alta com modelo pequeno + auditabilidade.
Não substitui LLM geral; complementa em tarefas estruturadas.

Tsetlin Machines

Aprendizado baseado em *ógica proposicional*(cláusulas conjuntivas) controlado por *utômatos de Tsetlin*— não usa gradientes, não usa redes neurais.

Original Tsetlin Machine

*rXiv:*1804.01508 | Ole-Christoffer Granmo (Univ. Agder)
*ecanismo:*N autômatos por feature decidem incluirexcluir cada literal em cláusulas; recompensapunição por feedback Type I/II.
*antagens:*
- Modelo é *onjunto de cláusulas booleanas legíveis*(interpretável por construção)
- Roda em microcontrolador (kB de RAM, sem FPU)
- Treino em CPU competitivo com SVM/Random Forest em tabular

Variantes recentes

*onvolutional Tsetlin Machine*(arXiv:1905.09688) — competitivo com CNN em MNISTFashion-MNISTCIFAR-10.
*oalesced TM*(arXiv:2108.07594) — compartilhamento de cláusulas entre classes; reduz memória 5-10×.
*omposite TM*/ *lug~~and~~Play TM*(2024-2026) — combina múltiplas TMs especializadas.
*raph Tsetlin Machine*(2025) — grafos heterogêneos com cláusulas estruturais.

Hardware

*ignon AI*(spin~~off de Agder, 2024) — chip Tsetlin nativo, inferência sub~~mW.
*mplementações FPGA*abertas (github.com/cair).

Para o Kode

Candidato pra *dge inference*em variantes mobileTVwearable quando latência <1ms e bateria importam mais que SOTA absoluto.
Útil pra modelos *xplicáveis sob LGPD/AI Act*— cláusulas são auditáveis diretamente.

Hyperdimensional Computing / Vector Symbolic Architectures (HDC/VSA)

Representação como *ipervetores*de 10.000+ dimensões binários/bipolares; semântica via operações algébricas (bind, bundle, permute) em vez de aprendizado por gradiente.

Fundamentos

*anerva, P.*(2009) — Hyperdimensional Computing — manifesto original
*ensor Product Representations*(Smolensky 1990) — antecessor
*olographic Reduced Representations*(Plate 1995) — variante HRR

Frameworks modernos

*orchhd*(Heddes et al., JMLR 2023) — biblioteca PyTorch para HDC; benchmarks em UCI, EuroSAT, ISOLET, EMG.
*penHD*(UC Irvine) — runtime HDC para CPU/FPGA.

Aplicações práticas

*lassificação de sinais biomédicos*(ECG, EMG, EEG) com one~~shot ou few~~shot learning.
*earables*(Apple/Samsung research papers 2024~~2025) — gesture recognition + activity classification em chips Cortex~~M.
*emória associativa robusta a ruído*— graceful degradation com 10-30% de bit flips.

Vantagens vs deep learning

*ne~~shot learning*sem fine~~tuning
*odelo aritmético*(sem treino iterativo); minutos em CPU vs horas em GPU
*nerentemente paralelizável*em hardware customizado

Para o Kode

Candidato para *etecção de eventos on~~device*(toque, gesto, wake~~word complementar) quando model size precisa estar abaixo de 100KB.
Spec relevante: specs/voice/wake-word.kmd poderia ganhar backend HDC alternativo ao TFLite.

Algoritmos de Aprendizado Alternativos ao Backprop

Forward-Forward Algorithm

*inton (2022)*— The Forward-Forward Algorithm: Some Preliminary Investigations
*ecanismo:*substitui forward+backward por *ois forwards*— um com dados positivos (real), outro com negativos (sintético/embaralhado); cada camada maximiza "goodness" para positivos e minimiza para negativos.
*antagens:*
- Não precisa armazenar ativações para backward → memória O(1) na profundidade
- Mapeia diretamente em hardware neuromórfico ([[neuromorfico]])
- Permite treino layerbylayer assíncrono
*imitação atual:*ainda atrás de backprop em accuracy; ativo em pesquisa (várias extensões 2023-2025).

Predictive Coding (PC)

*ierarchical Predictive Coding*(Rao & Ballard 1999; Friston 2005)
*C Networks*(Whittington & Bogacz 2017; Millidge et al. 2022) — aproximam backprop com regras locais hebbianas.
*onexão com biologia:*considerado modelo plausível do córtex visual.

Equilibrium Propagation

*cellier & Bengio (2017)*— sistemas físicos relaxando para mínimo de energia computam gradientes localmente.
Conecta com Energy-Based Models e analog computing.

Para o Kode

Não usar em produção hoje. *companhar:*se hardware neuromórfico amadurecer, esses algoritmos viram a única opção viável de treino on-chip.

Energy-Based Models (EBMs) e Hopfield Moderno

Modelos definidos por uma função de energia \(E(x)\) — inferência = encontrar \(x\) que minimiza \(E\).

Modern Hopfield Networks

*amsauer et al. (ICLR 2021)*— Hopfield Networks Is All You Need (arXiv:2008.02217)
*esultado:*Hopfield contínuo com função de energia exponencial tem *apacidade exponencial*(vs linear da versão clássica) e suas regras de atualização são *quivalentes à atenção do Transformer*
*mplicação teórica:*atenção = associative memory; abre porta para EBM-based attention.

EBM modernos (Yann LeCun)

LeCun advoga EBM como framework unificador desde 2006; reforçou em 2022 com A Path Towards Autonomous Machine Intelligence.
*EPA*(próxima seção) é a expressão atual da agenda EBM da Meta.

Joint Energy Models (JEM)

Grathwohl et al. (ICLR 2020) — classifier também é generativo via \(p(x,y) \propto e^{-E(x,y)}\).

Joint Embedding Predictive Architectures (JEPA)

Aprende *epresentações latentes*prevendo embeddings (não pixels/tokens) — abordagem *ão~~generativa*de self~~supervised learning.

IJEPA (ImageJEPA)

*rXiv:*2301.08243 | Meta / LeCun group
*ecanismo:*predict embedding de patches mascarados a partir de patches visíveis, no espaço latente de um encoder.
*esultado:*competitivo com MAE/iBOT usando *uito menos compute*

VJEPA / VJEPA 2

*-JEPA*(Bardes et al., 2024) — vídeo; aprende dinâmica temporal.
*~~JEPA 2*(Meta, 2025) — treinado em 2M+ horas de vídeo; *ransferência zero~~shot para controle robótico*

Vantagens vs paradigmas generativos

*ão desperdiça capacidade*prevendo pixels irrelevantes (textura, ruído)
*ais data-efficient*que MAE/MIM
*oco em representação* não geração — alinhado com a visão "world model" de LeCun

Conexão com world models

Ver também 09-aplicacoes/video-3d-world-models.md (DreamerV3, Genie 2, Cosmos).

Para o Kode

Relevante se algum dia o Stack precisar de *ision encoder próprio*(Eye 2.0, screen understanding, video moderation) — JEPA é mais compute~~eficiente que CLIP/SigLIP para pre~~training do zero.

Active Inference / Free Energy Principle

Framework de Karl Friston (UCL) unificando percepção, ação e aprendizado sob um único princípio: *inimizar surpresa*(free energy variacional).

Premissa

Agente mantém modelo generativo do mundo; age para reduzir discrepância entre predições e observações. Backprop deep learning é caso especial.

Implementações práticas recentes

*ymdp*(Heins et al., JOSS 2022) — biblioteca Python para Active Inference em POMDPs discretos.
*ERSES AI*(2023-2026) — empresa comercializando Active Inference (Genius platform); claims de eficiência radicalmente superior a RL clássico em alguns benchmarks.
*eep Active Inference*(Çatal, Tschantz et al., 2020-2024) — combina VAE/transformer com Active Inference no objetivo.

Estado em 2026

Promissor teoricamente; *doção prática ainda nicho*(robótica, neurociência computacional).
Ainda sem "ChatGPT moment" próprio.

Para o Kode

Não acionável hoje. Acompanhar VERSES e papers de robótica/agentes — se aparecer caso de uso onde supera RL clássico com ordens de magnitude menos dados, reavaliar.

Quadro comparativo

Paradigma	Memória	Treino	Interpretável	Hardware ideal	Maturidade 2026
Neurosimbólico	Médio (LLM + symbolic)	Híbrido	Alta (regras)	GPU + CPU	Prod (AlphaGeometry-class)
Tsetlin Machines	Muito baixo (kB)	Lógico (sem grad)	Total (cláusulas)	CPU / FPGA / Mignon	Nicho prod
HDC / VSA	Baixo (~100KB)	Aritmético	Médio	CPU / FPGA / wearable	Nicho prod
Forward-Forward	Muito baixo (O(1) prof.)	Local	Baixo	Neuromórfico	Pesquisa
Predictive Coding	Baixo	Local hebbiano	Médio	Neuromórfico	Pesquisa
Energy-Based	Alto (treino)	Variacional	Médio	GPU	Teórico maduro
JEPA	Médio	SSL backprop	Baixo	GPU	Produção (Meta)
Active Inference	Variável	Variacional	Alta (modelo gen.)	CPU/GPU	Nicho

Recomendação consolidada para o Kode

*urto prazo (próximos 12 meses):*nenhum desses paradigmas substitui a stack LLM+MoE+Transformer. Monitorar.

*édio prazo (12~~36 meses):*se variantes wearable / TV / mobile precisarem de inferência <1mW ou <100KB, *setlin Machines + HDC*entram como candidatos sérios — possivelmente via engines/sdk/koder_kit android~~side.

*ongo prazo / oportunista:**eurosimbólico*é a aposta mais consequente para a Stack Koder — alinha com o objetivo de IA auditável + LGPD/AI Act friendly em domínios fortemente regulados (saúde pública, perícia digital, contabilidade BR).

*companhar com prioridade:*AlphaGeometry-class systems, VERSES claims, qualquer paper Tsetlin com performance >90% em benchmark padrão.