Benchmarks · 1º trim. 2026

Mais rápido do que chamar
a OpenAI diretamente.

Name: Floopy AI Gateway Performance Benchmarks
Creator: Floopy

O Floopy sem nenhuma feature ativada é 4,8% mais rápido que chamadas diretas à API. Com cache e firewall, é 58% mais rápido. Testado com o SDK Node.js da OpenAI, 50 rodadas, prompts isolados em 10 idiomas.

Contexto: Entregamos um gateway rápido, mas o produto é roteamento por feedback. Veja como a propagação de feedback em nível de sessão corta custos em 30–60% mantendo a qualidade.

4,8%

Mais rápido que direto

Sem features ativadas

10ms

P50 com cache

Acertos de cache exato

41MB

Uso de memória

Pico: 44MB

0ms

Overhead do firewall

LLM Firewall (cached)

Resumo dos resultados

Latência linha a linha.

Cenário	Média (ms)	P50 (ms)	P99 (ms)	vs Direto
OpenAI Direct	664	633	983	—
Floopy (sem features)	632	620	879	-4.8%
Floopy + Exact Cache	195	10	773	-70.6%
Floopy + Firewall	607	613	826	-8.6%
Floopy + Cache + Firewall	277	260	1,171	-58.3%
LiteLLM Proxy	660	665	895	-0.6%
Helicone Proxy	680	655	980	+2.4%

SDK Node.js da OpenAI, gpt-4.1-nano, 50 rodadas/cenário, pior outlier excluído, timestamps anti-cache.

Comparação de gateways

Cara a cara.

Métrica	Floopy	LiteLLM	Helicone
Latência Média	632ms	660ms	680ms
vs Direto	-4.8%	-0.6%	+2.4%
Escrito em	Rust	Python	Managed
Memória	41 MB	~200-400 MB	N/D
Cache	3-tier	Basic Redis	Não
Firewall LLM	On-device	Externo	Não

O Floopy é o único gateway que é mensuravelmente mais rápido do que chamar o provedor diretamente.

Por que é rápido

As quatro coisas que fazem o trabalho.

Rust, não Python.

Escrito em Rust com Axum e Tokio. Sem interpretador, sem garbage collector, sem warmup de VM. 41MB de memória vs 200-400MB para gateways em Python.

Pool de conexões persistentes.

Conexões HTTPS mantidas ativas e compartilhadas entre todas as API keys. Elimina handshakes TLS por requisição — economiza 20-50ms, mais do que o overhead de processamento do gateway.

Cache de vereditos do firewall.

Os números acima foram medidos com o firewall ONNX antigo. A migração moveu firewall + classificador para caminhos baseados em LLM via BackendRouter, com cache de vereditos no Qdrant para evitar chamadas repetidas. Novos benchmarks pendentes.

Logging em background.

Logs de requisição são enfileirados via canais assíncronos e inseridos em lote no ClickHouse. O logging nunca interfere no caminho da resposta.

Metodologia

Números publicados, setup reproduzível.

Cliente: SDK Node.js da OpenAI (mesmo SDK que desenvolvedores usam em produção)
Modelo: gpt-4.1-nano, 50 rodadas por cenário
Anti-cache: Timestamp + índice injetados em cada prompt — zero acertos de cache do provedor
Isolamento de prompts: 266 prompts únicos em 10 idiomas, zero sobreposição entre cenários
Outliers: Pior resultado por cenário excluído
Concorrentes: LiteLLM (Docker, proxy Python), Helicone (proxy cloud gerenciado)

Metodologia completa Leia o post do blog

Mais rápido do que chamara OpenAI diretamente.