Cache (Inference Cache): foundations
Cache (Inference Cache) — foundations RFC
Status
*ccepted*— ratificada 20260509 (mesmo dia da abertura) como parte da onda piloto de bootstrap servicesai. Implementação iniciada em `servicesaicache; tickets em servicesaicachebacklogpending/{001..005}`.
Summary
Cache de respostas de inference — análogo OpenAI prompt cache, Helicone, Portkey. Reduz custo + latência do gateway.
Motivation
Gateway roteia mas não cacheia. Custo gateway sobe linear com chamadas; mesmo prompt repetido paga 100%. Helicone/Portkey reportam 30-60% economia em workloads típicos.
Scope
In
- Exact-match cache
- Semantic cache (via
embed) - TTL configurável
- Per-tenant quotas
- Invalidação
Out (yet)
- KV cache do modelo (escopo de runtime)
- Edge cache (escopo de jet)
Initial design
Surfaces
backend/— middleware Go integrado ao gateway + API opsapp/— não aplicável v1
Key APIs
- middleware do gateway (
X-Cache: HIT/MISSheader) GET /v1/cache/stats— métricasDELETE /v1/cache/keys— invalidação manual
Dependencies
services/ai/gateway— integração via middlewareservices/ai/embed— semantic matchinfra/data/kdb-kv— backend de storage
Relation to existing sectors
- Subsistema do gateway (transparent cache layer)
- Consome embed para semantic dedup
Selfhostedfirst analysis (5 gates)
- *1 Feature parity* zero
- *2 Performance* N/A
- *3 Stability* N/A
- *4 Capability* simples
- *5 Critical-path readiness* destrava economia substancial
Open questions
- Q1: Cache de respostas com tools — invalida sempre?
- Q2: TTL default por endpoint?
Next steps
- Ratificar esta RFC (1 round de comments).
- Criar sector dir
services/ai/cache/comkoder.toml,README.md, skeleton. - Abrir tickets de implementação em
services/ai/cache/backlog/pending/. - Registrar em
meta/docs/stack/registries/self-hosted-pairs.mdse substituir externo.