Paradigmas alternativos

Paradigmas Alternativos ao Deep Learning Denso

Linhas de pesquisa que rejeitam ou modificam premissas centrais do mainstream (rede neural diferenciável + backprop + escala). Relevantes quando o gargalo é *emória, energia, interpretabilidade ou raciocínio simbólico*— não puro desempenho em benchmarks de linguagem.

*ota de processo:*este arquivo é atualizado por /k-ia-compendium via Camada D (busca explícita por novidades em cada linha listada abaixo).


Neurosimbólico (Neuro-Symbolic AI)

Combina aprendizado neural (pattern matching, perception) com raciocínio simbólico (regras, lógica, busca). Premissa: tarefas de raciocínio estruturado (matemática, programação, planejamento) se beneficiam mais de uma camada simbólica do que de mais parâmetros.

AlphaGeometry / AlphaGeometry 2

  • *aper:*Nature 625, 476–482 (2024) | *eepMind*
  • *ecanismo:*LLM gera "auxiliary constructions" (intuição) + provador simbólico verifica/deduz (rigor). Loop até prova fechar.
  • *esultado:*2530 problemas IMO 2000-2022 (nível medalha de ouro) — anterior SOTA: 1030.
  • *lphaGeometry 2 (2025):*ampliação do domínio + LLM Gemini-based; resolveu IMO 2024 P4.
  • *ição:*~100M params neural + provador simbólico bate transformer 100B+ puro em geometria olímpica.

AlphaProof

  • *eepMind, 2024*— versão para álgebra/teoria dos números via Lean 4.
  • *ecanismo:*AlphaZero-style RL sobre o espaço de provas em Lean; LLM propõe táticas, solver verifica.
  • *esultado:*prata IMO 2024 (4/6 problemas).

DreamCoder

  • *rXiv:*2006.08381 | Ellis, Solar-Lezama (MIT/CSAIL)
  • *ecanismo:*"wake-sleep" alternando síntese de programas (busca) + abstração de subprogramas reutilizáveis (aprendizado de biblioteca).
  • *omínios:*lista, gráficos LOGO, regex, física simbólica.
  • *antagem:*aprende *iblioteca de conceitos*explícita; cada conceito é um programa legível.

Differentiable Inductive Logic (∂ILP / NS-CL)

  • *ˆ‚ILP:*arXiv:1711.04574 — programa Prolog cujos pesos são diferenciáveis; aprende regras de exemplos.
  • *euro-Symbolic Concept Learner*(Mao et al., ICLR 2019) — VQA com perception neural + reasoning simbólico.
  • *ogic Tensor Networks (LTNs)*— Serafini & d'Avila Garcez, AAAI 2016 — fórmulas de lógica de primeira ordem com semântica fuzzy diferenciável.

Para o Kode

  • Útil pra módulos onde *egras são conhecidas e fixas*(contabilidade, regras tributárias BR, validação ICPBrasil) — neurosimbólico pode entregar accuracy alta com modelo pequeno + auditabilidade.
  • Não substitui LLM geral; complementa em tarefas estruturadas.

Tsetlin Machines

Aprendizado baseado em *ógica proposicional*(cláusulas conjuntivas) controlado por *utômatos de Tsetlin*— não usa gradientes, não usa redes neurais.

Original Tsetlin Machine

  • *rXiv:*1804.01508 | Ole-Christoffer Granmo (Univ. Agder)
  • *ecanismo:*N autômatos por feature decidem incluirexcluir cada literal em cláusulas; recompensapunição por feedback Type I/II.
  • *antagens:*
    • Modelo é *onjunto de cláusulas booleanas legíveis*(interpretável por construção)
    • Roda em microcontrolador (kB de RAM, sem FPU)
    • Treino em CPU competitivo com SVM/Random Forest em tabular

Variantes recentes

  • *onvolutional Tsetlin Machine*(arXiv:1905.09688) — competitivo com CNN em MNISTFashion-MNISTCIFAR-10.
  • *oalesced TM*(arXiv:2108.07594) — compartilhamento de cláusulas entre classes; reduz memória 5-10×.
  • *omposite TM*/ *lugandPlay TM*(2024-2026) — combina múltiplas TMs especializadas.
  • *raph Tsetlin Machine*(2025) — grafos heterogêneos com cláusulas estruturais.

Hardware

  • *ignon AI*(spinoff de Agder, 2024) — chip Tsetlin nativo, inferência submW.
  • *mplementações FPGA*abertas (github.com/cair).

Para o Kode

  • Candidato pra *dge inference*em variantes mobileTVwearable quando latência <1ms e bateria importam mais que SOTA absoluto.
  • Útil pra modelos *xplicáveis sob LGPD/AI Act*— cláusulas são auditáveis diretamente.

Hyperdimensional Computing / Vector Symbolic Architectures (HDC/VSA)

Representação como *ipervetores*de 10.000+ dimensões binários/bipolares; semântica via operações algébricas (bind, bundle, permute) em vez de aprendizado por gradiente.

Fundamentos

  • *anerva, P.*(2009) — Hyperdimensional Computing — manifesto original
  • *ensor Product Representations*(Smolensky 1990) — antecessor
  • *olographic Reduced Representations*(Plate 1995) — variante HRR

Frameworks modernos

  • *orchhd*(Heddes et al., JMLR 2023) — biblioteca PyTorch para HDC; benchmarks em UCI, EuroSAT, ISOLET, EMG.
  • *penHD*(UC Irvine) — runtime HDC para CPU/FPGA.

Aplicações práticas

  • *lassificação de sinais biomédicos*(ECG, EMG, EEG) com oneshot ou fewshot learning.
  • *earables*(Apple/Samsung research papers 20242025) — gesture recognition + activity classification em chips CortexM.
  • *emória associativa robusta a ruído*— graceful degradation com 10-30% de bit flips.

Vantagens vs deep learning

  • *neshot learning*sem finetuning
  • *odelo aritmético*(sem treino iterativo); minutos em CPU vs horas em GPU
  • *nerentemente paralelizável*em hardware customizado

Para o Kode

  • Candidato para *etecção de eventos ondevice*(toque, gesto, wakeword complementar) quando model size precisa estar abaixo de 100KB.
  • Spec relevante: specs/voice/wake-word.kmd poderia ganhar backend HDC alternativo ao TFLite.

Algoritmos de Aprendizado Alternativos ao Backprop

Forward-Forward Algorithm

  • *inton (2022)*— The Forward-Forward Algorithm: Some Preliminary Investigations
  • *ecanismo:*substitui forward+backward por *ois forwards*— um com dados positivos (real), outro com negativos (sintético/embaralhado); cada camada maximiza "goodness" para positivos e minimiza para negativos.
  • *antagens:*
    • Não precisa armazenar ativações para backward → memória O(1) na profundidade
    • Mapeia diretamente em hardware neuromórfico ([[neuromorfico]])
    • Permite treino layerbylayer assíncrono
  • *imitação atual:*ainda atrás de backprop em accuracy; ativo em pesquisa (várias extensões 2023-2025).

Predictive Coding (PC)

  • *ierarchical Predictive Coding*(Rao & Ballard 1999; Friston 2005)
  • *C Networks*(Whittington & Bogacz 2017; Millidge et al. 2022) — aproximam backprop com regras locais hebbianas.
  • *onexão com biologia:*considerado modelo plausível do córtex visual.

Equilibrium Propagation

  • *cellier & Bengio (2017)*— sistemas físicos relaxando para mínimo de energia computam gradientes localmente.
  • Conecta com Energy-Based Models e analog computing.

Para o Kode

  • Não usar em produção hoje. *companhar:*se hardware neuromórfico amadurecer, esses algoritmos viram a única opção viável de treino on-chip.

Energy-Based Models (EBMs) e Hopfield Moderno

Modelos definidos por uma função de energia \(E(x)\) — inferência = encontrar \(x\) que minimiza \(E\).

Modern Hopfield Networks

  • *amsauer et al. (ICLR 2021)*— Hopfield Networks Is All You Need (arXiv:2008.02217)
  • *esultado:*Hopfield contínuo com função de energia exponencial tem *apacidade exponencial*(vs linear da versão clássica) e suas regras de atualização são *quivalentes à atenção do Transformer*
  • *mplicação teórica:*atenção = associative memory; abre porta para EBM-based attention.

EBM modernos (Yann LeCun)

  • LeCun advoga EBM como framework unificador desde 2006; reforçou em 2022 com A Path Towards Autonomous Machine Intelligence.
  • *EPA*(próxima seção) é a expressão atual da agenda EBM da Meta.

Joint Energy Models (JEM)

  • Grathwohl et al. (ICLR 2020) — classifier também é generativo via \(p(x,y) \propto e^{-E(x,y)}\).

Joint Embedding Predictive Architectures (JEPA)

Aprende *epresentações latentes*prevendo embeddings (não pixels/tokens) — abordagem *ãogenerativa*de selfsupervised learning.

IJEPA (ImageJEPA)

  • *rXiv:*2301.08243 | Meta / LeCun group
  • *ecanismo:*predict embedding de patches mascarados a partir de patches visíveis, no espaço latente de um encoder.
  • *esultado:*competitivo com MAE/iBOT usando *uito menos compute*

VJEPA / VJEPA 2

  • *-JEPA*(Bardes et al., 2024) — vídeo; aprende dinâmica temporal.
  • *JEPA 2*(Meta, 2025) — treinado em 2M+ horas de vídeo; *ransferência zeroshot para controle robótico*

Vantagens vs paradigmas generativos

  • *ão desperdiça capacidade*prevendo pixels irrelevantes (textura, ruído)
  • *ais data-efficient*que MAE/MIM
  • *oco em representação* não geração — alinhado com a visão "world model" de LeCun

Conexão com world models

Ver também 09-aplicacoes/video-3d-world-models.md (DreamerV3, Genie 2, Cosmos).

Para o Kode

  • Relevante se algum dia o Stack precisar de *ision encoder próprio*(Eye 2.0, screen understanding, video moderation) — JEPA é mais computeeficiente que CLIP/SigLIP para pretraining do zero.

Active Inference / Free Energy Principle

Framework de Karl Friston (UCL) unificando percepção, ação e aprendizado sob um único princípio: *inimizar surpresa*(free energy variacional).

Premissa

Agente mantém modelo generativo do mundo; age para reduzir discrepância entre predições e observações. Backprop deep learning é caso especial.

Implementações práticas recentes

  • *ymdp*(Heins et al., JOSS 2022) — biblioteca Python para Active Inference em POMDPs discretos.
  • *ERSES AI*(2023-2026) — empresa comercializando Active Inference (Genius platform); claims de eficiência radicalmente superior a RL clássico em alguns benchmarks.
  • *eep Active Inference*(Çatal, Tschantz et al., 2020-2024) — combina VAE/transformer com Active Inference no objetivo.

Estado em 2026

  • Promissor teoricamente; *doção prática ainda nicho*(robótica, neurociência computacional).
  • Ainda sem "ChatGPT moment" próprio.

Para o Kode

  • Não acionável hoje. Acompanhar VERSES e papers de robótica/agentes — se aparecer caso de uso onde supera RL clássico com ordens de magnitude menos dados, reavaliar.

Quadro comparativo

Paradigma Memória Treino Interpretável Hardware ideal Maturidade 2026
Neurosimbólico Médio (LLM + symbolic) Híbrido Alta (regras) GPU + CPU Prod (AlphaGeometry-class)
Tsetlin Machines Muito baixo (kB) Lógico (sem grad) Total (cláusulas) CPU / FPGA / Mignon Nicho prod
HDC / VSA Baixo (~100KB) Aritmético Médio CPU / FPGA / wearable Nicho prod
Forward-Forward Muito baixo (O(1) prof.) Local Baixo Neuromórfico Pesquisa
Predictive Coding Baixo Local hebbiano Médio Neuromórfico Pesquisa
Energy-Based Alto (treino) Variacional Médio GPU Teórico maduro
JEPA Médio SSL backprop Baixo GPU Produção (Meta)
Active Inference Variável Variacional Alta (modelo gen.) CPU/GPU Nicho

Recomendação consolidada para o Kode

*urto prazo (próximos 12 meses):*nenhum desses paradigmas substitui a stack LLM+MoE+Transformer. Monitorar.

*édio prazo (1236 meses):*se variantes wearable / TV / mobile precisarem de inferência <1mW ou <100KB, *setlin Machines + HDC*entram como candidatos sérios — possivelmente via engines/sdk/koder_kit androidside.

*ongo prazo / oportunista:**eurosimbólico*é a aposta mais consequente para a Stack Koder — alinha com o objetivo de IA auditável + LGPD/AI Act friendly em domínios fortemente regulados (saúde pública, perícia digital, contabilidade BR).

*companhar com prioridade:*AlphaGeometry-class systems, VERSES claims, qualquer paper Tsetlin com performance >90% em benchmark padrão.

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/02-arquiteturas/paradigmas-alternativos.md