Por que o Floopy Permanece Rápido Enquanto Otimiza Seus Agentes
Velocidade de gateway virou commodity. A pergunta real é se seu roteamento torna seus agentes melhores com o tempo. Veja como o Floopy faz os dois.
Por que o Floopy Permanece Rápido Enquanto Otimiza Seus Agentes
Um ano atrás, “AI gateway mais rápido” teria sido um posicionamento defensável. Hoje não é. A latência de gateway despencou no mercado — proxies em Rust, pools de conexão com keepalive e camadas de cache co-localizadas fazem com que a maioria dos gateways sérios adicione menos de 10ms de overhead. Velocidade virou commodity.
O que não virou commodity é se sua camada de roteamento consegue tornar seus agentes mensuravelmente melhores ao longo do tempo usando o sinal de feedback que você já coleta. É sobre isso que este post realmente é. Os benchmarks vêm junto.
Velocidade, brevemente — os números ainda importam
Continuamos rodando o benchmark. Aqui está a versão curta contra gpt-4.1-nano, 50 rodadas por cenário, prompts únicos anti-cache, outlier excluído:
| Cenário | Média (ms) | P50 (ms) | vs Direto |
|---|---|---|---|
| OpenAI Direto | 664 | 633 | baseline |
| Floopy (sem recursos) | 632 | 620 | -4.8% |
| Floopy + Cache Exato | 195 | 10 | -70.6% |
| Floopy + Firewall | 607 | 613 | -8.6% |
| Floopy + Cache + Firewall | 277 | 260 | -58.3% |
| LiteLLM Proxy | 660 | 665 | -0.6% |
| Helicone Proxy | 680 | 655 | +2.4% |
O gateway roda em Rust sobre Axum/Tokio com um pool compartilhado e quente de HTTPS para cada provedor, encaminhamento zero-copy e um firewall ONNX que escaneia prompts em menos de 1ms numa thread dedicada. A memória fica em ~41MB RSS ao longo de toda a execução.
Então: somos rápidos. Mas não vamos mais construir uma empresa em cima disso.
O produto real é otimização, não proxy
O Floopy é uma Plataforma de Otimização de Agentes de IA. O trabalho principal é escolher o modelo certo para cada requisição dentro dos seus agentes, usando uma pontuação ponderada dinâmica a partir de quatro fontes de feedback. O gateway é o mecanismo de entrega — é como estamos no caminho crítico para tomar essas decisões sem você reescrever sua aplicação. Mas o valor está no roteamento ficando mais inteligente, não no proxy sendo rápido.
Três coisas tornam a otimização do Floopy defensável. Nenhuma delas é sobre latência.
1. Propagação de feedback em nível de sessão
Avaliações por requisição quebram em agentes. Um único turno de usuário pode se desdobrar em tool calls, retries, raciocínio encadeado e múltiplas invocações de modelo. Pedir ao usuário para avaliar cada salto é absurdo. Pedir para ele avaliar o resultado final é normal — é exatamente o que a coleta de NPS já faz.
O Floopy ingere uma avaliação por sessão e a propaga para cada decisão de roteamento tomada dentro daquela sessão. Você faz POST em /v1/feedback com o header floopy-session-id que você já estava enviando nas requisições, e a nota vira a verdade de base para cada escolha de modelo naquele trace. Multi-turn, tool-calling, chain-of-thought — tudo coberto pelo sinal que você já coleta.
2. Roteamento ponderado multi-fonte
Feedback de fonte única é frágil. NPS de sessão é esparso no começo. Auto-scoring (LLM-as-judge) tem pontos cegos. Avaliações manuais de admin não escalam. Benchmarks públicos não refletem sua carga de trabalho.
O Floopy combina todas as quatro com pesos que mudam conforme o sinal se acumula:
| Fase | Sessão | Auto | Manual | Benchmark |
|---|---|---|---|---|
| Dia 0 | — | — | — | 100% |
| Após 10 requisições | — | 50% | 20% | 30% |
| Após 10 sessões | 50% | 30% | 10% | 10% |
Dia 0 significa que o roteamento começa a partir de priors de benchmarks públicos — você ganha otimização já na primeira requisição. Conforme o uso real chega, auto e feedback manual assumem. Uma vez que sessões suficientes recebem avaliações reais, o NPS de sessão domina. Você nunca bate na parede do cold-start.
3. Inteligência de roteamento gerenciada e compartilhada
O Floopy é multi-tenant por design. Organizações Free e Pro contribuem para um pool de roteamento compartilhado — sinal agregado e preservando privacidade sobre quais modelos performam melhor em quais formatos de tarefa. Enterprise pode optar por sair (opt-out).
É por isso que não lançamos uma versão self-hosted do cérebro de otimização. Self-hosted significa em silos — cada cliente aprende só com o próprio tráfego. Nossa aposta é que o pool cross-tenant converge mais rápido do que qualquer tenant isolado conseguiria por conta própria. O framework open-source do TensorZero é excelente e respeitamos o trabalho; é apenas uma aposta arquitetural diferente. Se sua restrição é localidade total de dados, self-host é a resposta certa. Se sua restrição é “tornar meus agentes melhores com o sinal que já coleto”, pooling gerenciado vence.
Como a velocidade de fato serve à otimização
Aqui está por que ainda nos importamos com latência: decisões de roteamento precisam ser baratas. Se ponderar quatro fontes de feedback, buscar o contexto da sessão e escolher um modelo somar 200ms, ninguém liga isso em produção. O orçamento de velocidade do gateway é o que nos compra espaço para fazer trabalho de roteamento de verdade sem o usuário notar.
- O pool compartilhado e quente de conexões faz com que gastemos quase nada no salto de encaminhamento.
- O cache exato via Redis e o cache semântico via Qdrant ficam na frente da chamada ao modelo, não atrás dela, então o roteamento em cache hit é essencialmente grátis.
- O firewall roda in-process via ONNX — sem round-trip de rede extra para escaneamento de prompt-injection.
Quando alguém roda nosso benchmark e vê “mais rápido que OpenAI direto”, o interessante não é esse número. É que o número é negativo enquanto o gateway também está tomando uma decisão de roteamento ponderada por feedback, escaneando por prompt injection e logando no ClickHouse. Esse é o orçamento dentro do qual a otimização roda.
O que isso significa para sua stack
Se você está avaliando o Floopy contra:
- LiteLLM / Portkey / Helicone — são gateways. Eles resolvem proxy, observabilidade e política básica. Se você só precisa das primitivas de gateway, são escolhas válidas. O Floopy tem essas primitivas (fizemos o benchmark delas lá em cima), mas o produto é a camada de otimização em cima. A pergunta não é “qual gateway é mais rápido”, é “você precisa de roteamento que melhora com o tempo, ou de um proxy transparente”.
- TensorZero — framework open-source, self-hosted, para roteamento dirigido por feedback. Trabalho técnico forte. O trade-off é aprendizado em silo e ops self-hosted. O Floopy é a alternativa gerenciada com pool de roteamento compartilhado e zero carga de infra. Escolha por preferência arquitetural, não por paridade de features.
- Sem gateway — você está chamando provedores diretamente. É rápido, mas você está deixando otimização na mesa. O Floopy adiciona latência negativa-a-neutra enquanto a qualidade do seu agente começa a melhorar desde a primeira requisição.
Reproduza o benchmark
Continua open source, continua reproduzível:
cd examplenpm run benchmark:fullA metodologia completa, detalhes de isolamento de prompts e explicações de cenário vivem na documentação de Benchmarks.
Mas o benchmark não é mais o pitch. O pitch é: aponte seu OpenAI SDK para o Floopy, comece a fazer POST das notas de NPS que você já coleta em /v1/feedback e veja seu roteamento melhorar sessão por sessão. A velocidade está lá porque a otimização precisa do orçamento.
Cadastre-se grátis — 5.000 requisições/mês e 500 ingestões de feedback/mês incluídas no Starter. Plugue o SDK, faça POST do feedback a partir do sinal que você já tem.