Skip to content
Ffloopy
Benchmarks · 1º trim. 2026

Mais rápido do que chamar
a OpenAI diretamente.

O Floopy sem nenhuma feature ativada é 4,8% mais rápido que chamadas diretas à API. Com cache e firewall, é 58% mais rápido. Testado com o SDK Node.js da OpenAI, 50 rodadas, prompts isolados em 10 idiomas.

Contexto: Entregamos um gateway rápido, mas o produto é roteamento por feedback. Veja como a propagação de feedback em nível de sessão corta custos em 30–60% mantendo a qualidade.
4,8%
Mais rápido que direto
Sem features ativadas
10ms
P50 com cache
Acertos de cache exato
41MB
Uso de memória
Pico: 44MB
0ms
Overhead do firewall
LLM Firewall (cached)
Resumo dos resultados

Latência linha a linha.

CenárioMédia (ms)P50 (ms)P99 (ms)vs Direto
OpenAI Direct664633983
Floopy (sem features)632620879-4.8%
Floopy + Exact Cache19510773-70.6%
Floopy + Firewall607613826-8.6%
Floopy + Cache + Firewall2772601,171-58.3%
LiteLLM Proxy660665895-0.6%
Helicone Proxy680655980+2.4%

SDK Node.js da OpenAI, gpt-4.1-nano, 50 rodadas/cenário, pior outlier excluído, timestamps anti-cache.

Comparação de gateways

Cara a cara.

MétricaFloopyLiteLLMHelicone
Latência Média632ms660ms680ms
vs Direto-4.8%-0.6%+2.4%
Escrito emRustPythonManaged
Memória41 MB~200-400 MBN/D
Cache3-tierBasic RedisNão
Firewall LLMOn-deviceExternoNão

O Floopy é o único gateway que é mensuravelmente mais rápido do que chamar o provedor diretamente.

Por que é rápido

As quatro coisas que fazem o trabalho.

Rust, não Python.

Escrito em Rust com Axum e Tokio. Sem interpretador, sem garbage collector, sem warmup de VM. 41MB de memória vs 200-400MB para gateways em Python.

Pool de conexões persistentes.

Conexões HTTPS mantidas ativas e compartilhadas entre todas as API keys. Elimina handshakes TLS por requisição — economiza 20-50ms, mais do que o overhead de processamento do gateway.

Cache de vereditos do firewall.

Os números acima foram medidos com o firewall ONNX antigo. A migração moveu firewall + classificador para caminhos baseados em LLM via BackendRouter, com cache de vereditos no Qdrant para evitar chamadas repetidas. Novos benchmarks pendentes.

Logging em background.

Logs de requisição são enfileirados via canais assíncronos e inseridos em lote no ClickHouse. O logging nunca interfere no caminho da resposta.

Metodologia

Números publicados, setup reproduzível.

  • Cliente: SDK Node.js da OpenAI (mesmo SDK que desenvolvedores usam em produção)
  • Modelo: gpt-4.1-nano, 50 rodadas por cenário
  • Anti-cache: Timestamp + índice injetados em cada prompt — zero acertos de cache do provedor
  • Isolamento de prompts: 266 prompts únicos em 10 idiomas, zero sobreposição entre cenários
  • Outliers: Pior resultado por cenário excluído
  • Concorrentes: LiteLLM (Docker, proxy Python), Helicone (proxy cloud gerenciado)
Metodologia completa Leia o post do blog