Skip to content
Ffloopy
v2.4 · Roteamento guiado por feedback

Plataforma de
Otimização de Agentes de IA

O Floopy fica entre seu agente e os provedores de modelo. Cada chamada é roteada para o modelo mais barato que ainda atende sua barra de qualidade — aprendido de feedback real, não de intuição.

58%
redução média de custo
<8ms
overhead de roteamento p99
99.99%
uptime últimos 90d
floopy.router · benchmark do agente de suporte
Demo · dados de benchmark
Custo por 1k execuções
$5.21 / 1k
$12.40 $5.21
vs baseline GPT-4o
↓ 58%
Como funciona

Três linhas de código.
O feedback cuida do resto.

Troque a base URL da sua chamada LLM, conecte um sinal de feedback, e o Floopy começa a aprender qual modelo basta para cada rota. Sem reescrever prompts, sem montar evals, sem mudar pipeline.

01

Aponte seu client para o Floopy

Uma linha. Use o SDK da OpenAI que você já usa — só troque a base URL. Anthropic, Google e Mistral funcionam pelo mesmo formato compatível com OpenAI.

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: "https://api.floopy.ai/v1",
  apiKey: process.env.FLOOPY_API_KEY,
});
02

Conecte um sinal de feedback

Thumbs up/down, task completion, rewrite count — qualquer coisa que você já loga. Uma métrica basta para começar.

await fetch("https://api.floopy.ai/v1/feedback", {
  method: "POST",
  body: JSON.stringify({
    id: run.id,
    score: 1,
    reason: "resolved",
  }),
});
03

Suba. Veja o custo cair.

O Floopy testa modelos mais baratos em canary, promove os que passam na sua barra de qualidade e faz rollback em regressões.

// Depois de 48h de shadow traffic
gpt-4o       -62%
claude-sonnet  -41%
quality     +0.3σ
Benchmarks

Mesma barra de qualidade.
Metade da conta.

Medido em 12.000 traces de produção de um agente de atendimento. Qualidade mantida dentro de um desvio padrão do baseline GPT-4o.

Ler a metodologia completa →
Configuração
Custo relativo por 1k runs
Custo
baseline · gpt-4o
$12.40
roteamento manual
$9.67
só cache
$7.94
▶ floopy · auto
$5.21
Plataforma

Tudo entre o prompt
e a produção.

Não é mais um dashboard de observabilidade. O Floopy intervém ativamente — roteia, faz cache, fallback, canary — te entregando os traces e evals para confiar no que ele está fazendo.

Roteamento adaptativo

Política por rota aprendida do feedback. Pinna em regressão, canarycia em drift, reavalia a cada modelo novo na semana em que chega.

Cache semântico

Fingerprint de request + tools + contexto. Hits exatos e por paráfrase, versionado por rota, TTL por sinal.

Ciclos de feedback

Thumbs, rewrites, completion, NPS — o que você já coleta. RLHF offline sem time de dados.

Harness de eval

LLM-as-judge, rubric evals e golden sets. Roda em todo candidato a promoção antes do tráfego real.

Tracing

Cada tool call, token e julgamento. OpenTelemetry-native, exporte para Datadog, Honeycomb ou S3.

Guardrails

Redação de PII, detecção de prompt injection, pinagem por região e cap de budget por tenant. Ligado por padrão.

SDKs

Drop-in, em qualquer lugar
onde você já está.

Use o SDK da OpenAI que você já usa em Node, Python, Go ou Deno. Stream-safe, tool-calling-safe e compatível com todo provedor que fala o wire format da OpenAI.

agent.ts
import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: "https://api.floopy.ai/v1",
  apiKey: process.env.FLOOPY_API_KEY,
});

const res = await client.chat.completions.create({
  model: 'auto',   // deixa o Floopy escolher o mais barato que mantém qualidade
  messages,
});

// conecte feedback depois pelo id da resposta
await fetch("https://api.floopy.ai/v1/feedback", {
  method: "POST",
  body: JSON.stringify({ id: res.id, score: 1 }),
});
from openai import OpenAI
import os, requests

client = OpenAI(
  base_url="https://api.floopy.ai/v1",
  api_key=os.environ["FLOOPY_API_KEY"],
)

res = client.chat.completions.create(
  model="auto",
  messages=messages,
)

# conecte feedback depois pelo id da resposta
requests.post(
  "https://api.floopy.ai/v1/feedback",
  json={"id": res.id, "score": 1},
)
$ curl https://api.floopy.ai/v1/chat/completions \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{ "model": "auto", "messages": [...] }'

# Depois: conecte feedback pelo id
$ curl https://api.floopy.ai/v1/feedback \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -d '{ "id": "run_01h...", "score": 1 }'
Provedores & integrações

20 provedores.
Um endpoint.

Traga suas próprias chaves ou use os padrões do Floopy. O roteamento é compatível com OpenAI — seu código não muda quando o melhor modelo muda.

O
OpenAI
provider
A
Anthropic
provider
G
Gemini
provider
Gq
Groq
provider
M
Mistral
provider
D
DeepSeek
provider
X
xAI
provider
P
Perplexity
provider
Az
Azure
provider
+
+11 outros provedores
Ver todos os provedores →
Preços

Quatro planos.
Pague pelo valor capturado.

Grátis até você ver economia real. Depois disso, uma mensalidade simples ou um contrato customizado para enterprise.

Free
$0 /mês
Explore o Floopy em um plano gratuito com limites.
  • 5.000 requisições / mês
  • 20+ provedores (OpenAI, Anthropic, Gemini…)
  • Cache exato + firewall LLM Firewall
  • Retenção de logs por 7 dias
Começar grátis
Starter
$29.90 /mês
Construa algo real com seu próprio sinal de feedback.
  • 100 mil requisições / mês · 2k rpm
  • API de feedback · 500 envios / mês
  • Cache semântico
  • Retenção de logs por 30 dias
Assinar
Enterprise
Sob consulta
Compliance, isolamento, SLA e suporte dedicado.
  • SSO/SAML · SOC 2 · HIPAA
  • SLA dedicado + suporte por Slack
  • Opt-out do modelo compartilhado
  • Isolamento dedicado de tenant
Falar com vendas
FAQ

Perguntas frequentes

Como o roteamento guiado por feedback funciona, como o Floopy difere de gateways e ferramentas de LLMOps, e as perguntas de privacidade que você vai fazer.

O que é o Floopy? +
O Floopy é uma Plataforma de Otimização de Agentes de IA com um loop de feedback fechado que usa quatro fontes de sinal: NPS de sessão do usuário final (primário), scoring LLM-as-judge em 4 dimensões (relevância, coerência, utilidade, segurança), avaliações manuais de admin e benchmarks públicos. Essas fontes são combinadas com pesos dinâmicos que mudam conforme a disponibilidade de dados — benchmarks dominam no dia 0, feedback automático assume após 10 requisições, NPS de sessão se torna primário após 10 sessões com feedback.
Como funciona o roteamento guiado por feedback? +
Cada requisição enviada pelo Floopy carrega um header floopy-session-id. Você faz POST de uma nota NPS por sessão em /v1/feedback, e essa nota propaga para cada decisão de roteamento daquela sessão — não exige rating por resposta. O router combina quatro sinais (NPS de sessão, LLM-as-judge, avaliações de admin, benchmarks públicos) com pesos dinâmicos: benchmarks dominam no dia 0, feedback automático assume após 10 requisições, NPS de sessão se torna primário após 10 sessões com feedback. Menor custo, mesma qualidade, sem nova instrumentação.
O Floopy é um AI Gateway? +
O Floopy inclui capacidades de AI gateway — roteamento compatível com OpenAI, caching, rate limiting, observabilidade — mas o produto central é otimização contínua de agentes via roteamento guiado por feedback. Se você está avaliando gateways como Portkey, Helicone ou LiteLLM, o proxying de requisição que você recebe com o Floopy é um subconjunto do que fazemos. Veja /compare para o recorte da categoria.
O que acontece com meus dados nos planos Free/Pro vs Enterprise? +
Organizações Free, Starter e Pro contribuem com sinal agregado de roteamento — NPS de sessão, scores LLM-as-judge, deltas de benchmark, nunca prompts ou respostas em formato bruto — para um modelo compartilhado que melhora o roteamento para todos. Clientes Enterprise podem optar por sair (opt-out) para aprendizado isolado sem fluxo de sinal entre tenants. Logs brutos de request e response nunca são compartilhados entre tenants em nenhum plano.
Preciso instrumentar algo novo para usar o loop de feedback do Floopy? +
Não. Se você já coleta NPS, CSAT ou thumbs-up/down no fim das conversas, basta fazer POST dessa nota no endpoint /v1/feedback do Floopy com o ID da sessão que você já passa no header floopy-session-id. É isso. Se você ainda não coleta feedback de usuário, o Floopy continua melhorando o roteamento automaticamente via scoring LLM-as-judge em cada requisição — você tem o benefício do loop mesmo com zero input do usuário. O loop funciona com qualquer sinal que você tenha.
Por que uma nota por sessão em vez de por resposta? +
Agentes modernos não entregam valor uma resposta por vez. Eles raciocinam, chamam tools, encadeiam passos. Uma única resposta ser "boa" ou "ruim" frequentemente depende de decisões tomadas três passos antes. O router do Floopy aprende com a trajetória inteira: quando você avalia uma sessão 9/10, cada decisão de roteamento daquela sessão recebe crédito; quando você avalia 3/10, cada decisão recebe sinal de aprendizado sobre o que fazer diferente. Scoring por requisição perde tudo isso. Por requisição está disponível como opção se você quiser, mas não é como a otimização central funciona.
O Floopy é uma alternativa ao Portkey? +
Sim, se você está avaliando o Portkey principalmente por roteamento, caching e observabilidade. O Floopy entrega essas camadas da mesma forma através de um endpoint compatível com OpenAI. A diferença é o que acontece depois da requisição: o Floopy usa a nota NPS que você envia para /v1/feedback para fechar um loop de roteamento — futuras requisições em sessões similares roteiam para modelos mais baratos quando a qualidade se mantém. O Portkey é um gateway; o Floopy é uma plataforma de otimização que inclui o gateway.
Qual a diferença entre o Floopy e o Helicone? +
O Helicone é excelente em observabilidade por requisição e feedback de desenvolvedor — cada chamada recebe seu próprio rating. O Floopy assume a posição oposta: uma nota NPS por sessão propaga para cada decisão de roteamento daquela sessão, porque a qualidade de um agente depende da trajetória inteira, não de respostas individuais. Se você quer tracking granular por requisição, o Helicone encaixa. Se você quer que o router aprenda com sinal de nível de sessão do usuário final que você já coleta, o Floopy encaixa.
Posso substituir o LiteLLM pelo Floopy? +
Sim para a camada de proxying. O LiteLLM é a melhor abstração da categoria sobre 100+ providers; o Floopy suporta 20 providers pela mesma interface compatível com OpenAI e adiciona caching gerenciado, firewall, rate limiting e roteamento guiado por feedback. Se você auto-hospeda o LiteLLM puramente para normalização de providers, o Floopy troca flexibilidade de self-hosting por um loop de otimização gerenciado que aprende com o NPS de sessão.
O Floopy é realmente mais rápido que chamar a OpenAI diretamente? +
Sim. Nossos benchmarks mostram que o Floopy é 4,8% mais rápido que chamadas diretas à OpenAI mesmo com todas as features desabilitadas — testado com o OpenAI Node.js SDK, 50 rounds, timestamps anti-cache e prompts isolados em 10 idiomas. O connection pooling persistente do gateway em Rust elimina handshakes TLS por requisição, economizando mais tempo do que o gateway gasta processando. Velocidade é requisito mínimo — o loop de otimização em cima é o que compõe economia de custo ao longo do tempo.
Quanta memória o gateway usa? +
41MB de média, 44MB de pico — verificado sob carga de benchmark (350 requisições em 7 cenários). O binário Rust roteia o firewall por LLM externo via BackendRouter e ainda usa menos memória que uma cadeia típica de imports Python. Para comparação, gateways em Python usam 200–400MB em idle.
E quanto à privacidade de dados e PII? +
Logs de request e response são automaticamente limpos de PII antes do armazenamento — emails, CPFs, SSNs, cartões de crédito, telefones e API keys são substituídos por marcadores de redação. A limpeza roda de forma assíncrona e nunca bloqueia suas requisições. O gateway e o dashboard são arquiteturalmente separados — um gateway comprometido não pode acessar contas de usuário ou dados de billing.
Suba agentes mais baratos, hoje

Seus usuários não vão notar.
Seu CFO vai.

Comece a rotear em menos de 10 minutos. Grátis até 100k chamadas por mês, sem cartão de crédito.