Rust, não Python.
Escrito em Rust com Axum e Tokio. Sem interpretador, sem garbage collector, sem warmup de VM. 41MB de memória vs 200-400MB para gateways em Python.
O Floopy sem nenhuma feature ativada é 4,8% mais rápido que chamadas diretas à API. Com cache e firewall, é 58% mais rápido. Testado com o SDK Node.js da OpenAI, 50 rodadas, prompts isolados em 10 idiomas.
| Cenário | Média (ms) | P50 (ms) | P99 (ms) | vs Direto |
|---|---|---|---|---|
| OpenAI Direct | 664 | 633 | 983 | — |
| Floopy (sem features) | 632 | 620 | 879 | -4.8% |
| Floopy + Exact Cache | 195 | 10 | 773 | -70.6% |
| Floopy + Firewall | 607 | 613 | 826 | -8.6% |
| Floopy + Cache + Firewall | 277 | 260 | 1,171 | -58.3% |
| LiteLLM Proxy | 660 | 665 | 895 | -0.6% |
| Helicone Proxy | 680 | 655 | 980 | +2.4% |
SDK Node.js da OpenAI, gpt-4.1-nano, 50 rodadas/cenário, pior outlier excluído, timestamps anti-cache.
| Métrica | Floopy | LiteLLM | Helicone |
|---|---|---|---|
| Latência Média | 632ms | 660ms | 680ms |
| vs Direto | -4.8% | -0.6% | +2.4% |
| Escrito em | Rust | Python | Managed |
| Memória | 41 MB | ~200-400 MB | N/D |
| Cache | 3-tier | Basic Redis | Não |
| Firewall LLM | On-device | Externo | Não |
O Floopy é o único gateway que é mensuravelmente mais rápido do que chamar o provedor diretamente.
Escrito em Rust com Axum e Tokio. Sem interpretador, sem garbage collector, sem warmup de VM. 41MB de memória vs 200-400MB para gateways em Python.
Conexões HTTPS mantidas ativas e compartilhadas entre todas as API keys. Elimina handshakes TLS por requisição — economiza 20-50ms, mais do que o overhead de processamento do gateway.
Os números acima foram medidos com o firewall ONNX antigo. A migração moveu firewall + classificador para caminhos baseados em LLM via BackendRouter, com cache de vereditos no Qdrant para evitar chamadas repetidas. Novos benchmarks pendentes.
Logs de requisição são enfileirados via canais assíncronos e inseridos em lote no ClickHouse. O logging nunca interfere no caminho da resposta.