v2.4 · Roteamento guiado por feedback

Plataforma de
Otimização de Agentes de IA

O Floopy fica entre seu agente e os provedores de modelo. Cada chamada é roteada para o modelo mais barato que ainda atende sua barra de qualidade — aprendido de feedback real, não de intuição.

Começar grátis Ver benchmarks

58%

redução média de custo

<8ms

overhead de roteamento p99

99.99%

uptime últimos 90d

floopy.router · benchmark do agente de suporte

Demo · dados de benchmark

Custo por 1k execuções

$5.21 / 1k

$12.40 → $5.21

vs baseline GPT-4o

↓ 58%

Como funciona

Três linhas de código.
O feedback cuida do resto.

Troque a base URL da sua chamada LLM, conecte um sinal de feedback, e o Floopy começa a aprender qual modelo basta para cada rota. Sem reescrever prompts, sem montar evals, sem mudar pipeline.

Aponte seu client para o Floopy

Uma linha. Use o SDK da OpenAI que você já usa — só troque a base URL. Anthropic, Google e Mistral funcionam pelo mesmo formato compatível com OpenAI.

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: "https://api.floopy.ai/v1",
  apiKey: process.env.FLOOPY_API_KEY,
});

Conecte um sinal de feedback

Thumbs up/down, task completion, rewrite count — qualquer coisa que você já loga. Uma métrica basta para começar.

await fetch("https://api.floopy.ai/v1/feedback", {
  method: "POST",
  body: JSON.stringify({
    id: run.id,
    score: 1,
    reason: "resolved",
  }),
});

Suba. Veja o custo cair.

O Floopy testa modelos mais baratos em canary, promove os que passam na sua barra de qualidade e faz rollback em regressões.

// Depois de 48h de shadow traffic
gpt-4o      → -62%
claude-sonnet → -41%
quality    → +0.3σ

Benchmarks

Mesma barra de qualidade.
Metade da conta.

Medido em 12.000 traces de produção de um agente de atendimento. Qualidade mantida dentro de um desvio padrão do baseline GPT-4o.

Ler a metodologia completa →

Configuração

Custo relativo por 1k runs

Custo

baseline · gpt-4o

$12.40

roteamento manual

$9.67

só cache

$7.94

▶ floopy · auto

$5.21

Plataforma

Tudo entre o prompt
e a produção.

Não é mais um dashboard de observabilidade. O Floopy intervém ativamente — roteia, faz cache, fallback, canary — te entregando os traces e evals para confiar no que ele está fazendo.

Roteamento adaptativo

Política por rota aprendida do feedback. Pinna em regressão, canarycia em drift, reavalia a cada modelo novo na semana em que chega.

Cache semântico

Fingerprint de request + tools + contexto. Hits exatos e por paráfrase, versionado por rota, TTL por sinal.

Ciclos de feedback

Thumbs, rewrites, completion, NPS — o que você já coleta. RLHF offline sem time de dados.

Harness de eval

LLM-as-judge, rubric evals e golden sets. Roda em todo candidato a promoção antes do tráfego real.

Tracing

Cada tool call, token e julgamento. OpenTelemetry-native, exporte para Datadog, Honeycomb ou S3.

Guardrails

Redação de PII, detecção de prompt injection, pinagem por região e cap de budget por tenant. Ligado por padrão.

SDKs

Drop-in, em qualquer lugar
onde você já está.

Use o SDK da OpenAI que você já usa em Node, Python, Go ou Deno. Stream-safe, tool-calling-safe e compatível com todo provedor que fala o wire format da OpenAI.

Ler a documentação Ver no GitHub →

agent.ts

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: "https://api.floopy.ai/v1",
  apiKey: process.env.FLOOPY_API_KEY,
});

const res = await client.chat.completions.create({
  model: 'auto',   // deixa o Floopy escolher o mais barato que mantém qualidade
  messages,
});

// conecte feedback depois pelo id da resposta
await fetch("https://api.floopy.ai/v1/feedback", {
  method: "POST",
  body: JSON.stringify({ id: res.id, score: 1 }),
});

from openai import OpenAI
import os, requests

client = OpenAI(
  base_url="https://api.floopy.ai/v1",
  api_key=os.environ["FLOOPY_API_KEY"],
)

res = client.chat.completions.create(
  model="auto",
  messages=messages,
)

# conecte feedback depois pelo id da resposta
requests.post(
  "https://api.floopy.ai/v1/feedback",
  json={"id": res.id, "score": 1},
)

$ curl https://api.floopy.ai/v1/chat/completions \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{ "model": "auto", "messages": [...] }'

# Depois: conecte feedback pelo id
$ curl https://api.floopy.ai/v1/feedback \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -d '{ "id": "run_01h...", "score": 1 }'

Provedores & integrações

20 provedores.
Um endpoint.

Traga suas próprias chaves ou use os padrões do Floopy. O roteamento é compatível com OpenAI — seu código não muda quando o melhor modelo muda.

OpenAI

provider

Anthropic

provider

Gemini

provider

Groq

provider

Mistral

provider

DeepSeek

provider

xAI

provider

Perplexity

provider

Azure

provider

+11 outros provedores

Ver todos os provedores →

Preços

Quatro planos.
Pague pelo valor capturado.

Grátis até você ver economia real. Depois disso, uma mensalidade simples ou um contrato customizado para enterprise.

Free

$0 /mês

Explore o Floopy em um plano gratuito com limites.

5.000 requisições / mês
20+ provedores (OpenAI, Anthropic, Gemini…)
Cache exato + firewall LLM Firewall
Retenção de logs por 7 dias

Começar grátis

Starter

$29.90 /mês

Construa algo real com seu próprio sinal de feedback.

100 mil requisições / mês · 2k rpm
API de feedback · 500 envios / mês
Cache semântico
Retenção de logs por 30 dias

Assinar

Pro · mais popular

$199.90 /mês

Roteamento por feedback em escala de produção.

Roteamento por feedback
Seletores inteligentes + A/B testing
Firewall avançado (LLM Firewall)
Retenção por 2 anos · 10k rpm

Trial de 30 dias

Enterprise

Sob consulta

Compliance, isolamento, SLA e suporte dedicado.

SSO/SAML · SOC 2 · HIPAA
SLA dedicado + suporte por Slack
Opt-out do modelo compartilhado
Isolamento dedicado de tenant

Falar com vendas

FAQ

Perguntas frequentes

Como o roteamento guiado por feedback funciona, como o Floopy difere de gateways e ferramentas de LLMOps, e as perguntas de privacidade que você vai fazer.

O que é o Floopy? +

O Floopy é uma Plataforma de Otimização de Agentes de IA com um loop de feedback fechado que usa quatro fontes de sinal: NPS de sessão do usuário final (primário), scoring LLM-as-judge em 4 dimensões (relevância, coerência, utilidade, segurança), avaliações manuais de admin e benchmarks públicos. Essas fontes são combinadas com pesos dinâmicos que mudam conforme a disponibilidade de dados — benchmarks dominam no dia 0, feedback automático assume após 10 requisições, NPS de sessão se torna primário após 10 sessões com feedback.

Como funciona o roteamento guiado por feedback? +

Cada requisição enviada pelo Floopy carrega um header floopy-session-id. Você faz POST de uma nota NPS por sessão em /v1/feedback, e essa nota propaga para cada decisão de roteamento daquela sessão — não exige rating por resposta. O router combina quatro sinais (NPS de sessão, LLM-as-judge, avaliações de admin, benchmarks públicos) com pesos dinâmicos: benchmarks dominam no dia 0, feedback automático assume após 10 requisições, NPS de sessão se torna primário após 10 sessões com feedback. Menor custo, mesma qualidade, sem nova instrumentação.

O Floopy é um AI Gateway? +

O Floopy inclui capacidades de AI gateway — roteamento compatível com OpenAI, caching, rate limiting, observabilidade — mas o produto central é otimização contínua de agentes via roteamento guiado por feedback. Se você está avaliando gateways como Portkey, Helicone ou LiteLLM, o proxying de requisição que você recebe com o Floopy é um subconjunto do que fazemos. Veja /compare para o recorte da categoria.

O que acontece com meus dados nos planos Free/Pro vs Enterprise? +

Organizações Free, Starter e Pro contribuem com sinal agregado de roteamento — NPS de sessão, scores LLM-as-judge, deltas de benchmark, nunca prompts ou respostas em formato bruto — para um modelo compartilhado que melhora o roteamento para todos. Clientes Enterprise podem optar por sair (opt-out) para aprendizado isolado sem fluxo de sinal entre tenants. Logs brutos de request e response nunca são compartilhados entre tenants em nenhum plano.

Preciso instrumentar algo novo para usar o loop de feedback do Floopy? +

Não. Se você já coleta NPS, CSAT ou thumbs-up/down no fim das conversas, basta fazer POST dessa nota no endpoint /v1/feedback do Floopy com o ID da sessão que você já passa no header floopy-session-id. É isso. Se você ainda não coleta feedback de usuário, o Floopy continua melhorando o roteamento automaticamente via scoring LLM-as-judge em cada requisição — você tem o benefício do loop mesmo com zero input do usuário. O loop funciona com qualquer sinal que você tenha.

Por que uma nota por sessão em vez de por resposta? +

Agentes modernos não entregam valor uma resposta por vez. Eles raciocinam, chamam tools, encadeiam passos. Uma única resposta ser "boa" ou "ruim" frequentemente depende de decisões tomadas três passos antes. O router do Floopy aprende com a trajetória inteira: quando você avalia uma sessão 9/10, cada decisão de roteamento daquela sessão recebe crédito; quando você avalia 3/10, cada decisão recebe sinal de aprendizado sobre o que fazer diferente. Scoring por requisição perde tudo isso. Por requisição está disponível como opção se você quiser, mas não é como a otimização central funciona.

O Floopy é uma alternativa ao Portkey? +

Sim, se você está avaliando o Portkey principalmente por roteamento, caching e observabilidade. O Floopy entrega essas camadas da mesma forma através de um endpoint compatível com OpenAI. A diferença é o que acontece depois da requisição: o Floopy usa a nota NPS que você envia para /v1/feedback para fechar um loop de roteamento — futuras requisições em sessões similares roteiam para modelos mais baratos quando a qualidade se mantém. O Portkey é um gateway; o Floopy é uma plataforma de otimização que inclui o gateway.

Qual a diferença entre o Floopy e o Helicone? +

O Helicone é excelente em observabilidade por requisição e feedback de desenvolvedor — cada chamada recebe seu próprio rating. O Floopy assume a posição oposta: uma nota NPS por sessão propaga para cada decisão de roteamento daquela sessão, porque a qualidade de um agente depende da trajetória inteira, não de respostas individuais. Se você quer tracking granular por requisição, o Helicone encaixa. Se você quer que o router aprenda com sinal de nível de sessão do usuário final que você já coleta, o Floopy encaixa.

Posso substituir o LiteLLM pelo Floopy? +

Sim para a camada de proxying. O LiteLLM é a melhor abstração da categoria sobre 100+ providers; o Floopy suporta 20 providers pela mesma interface compatível com OpenAI e adiciona caching gerenciado, firewall, rate limiting e roteamento guiado por feedback. Se você auto-hospeda o LiteLLM puramente para normalização de providers, o Floopy troca flexibilidade de self-hosting por um loop de otimização gerenciado que aprende com o NPS de sessão.

O Floopy é realmente mais rápido que chamar a OpenAI diretamente? +

Sim. Nossos benchmarks mostram que o Floopy é 4,8% mais rápido que chamadas diretas à OpenAI mesmo com todas as features desabilitadas — testado com o OpenAI Node.js SDK, 50 rounds, timestamps anti-cache e prompts isolados em 10 idiomas. O connection pooling persistente do gateway em Rust elimina handshakes TLS por requisição, economizando mais tempo do que o gateway gasta processando. Velocidade é requisito mínimo — o loop de otimização em cima é o que compõe economia de custo ao longo do tempo.

Quanta memória o gateway usa? +

41MB de média, 44MB de pico — verificado sob carga de benchmark (350 requisições em 7 cenários). O binário Rust roteia o firewall por LLM externo via BackendRouter e ainda usa menos memória que uma cadeia típica de imports Python. Para comparação, gateways em Python usam 200–400MB em idle.

E quanto à privacidade de dados e PII? +

Logs de request e response são automaticamente limpos de PII antes do armazenamento — emails, CPFs, SSNs, cartões de crédito, telefones e API keys são substituídos por marcadores de redação. A limpeza roda de forma assíncrona e nunca bloqueia suas requisições. O gateway e o dashboard são arquiteturalmente separados — um gateway comprometido não pode acessar contas de usuário ou dados de billing.

Suba agentes mais baratos, hoje

Seus usuários não vão notar.
Seu CFO vai.

Comece a rotear em menos de 10 minutos. Grátis até 100k chamadas por mês, sem cartão de crédito.

Começar grátis Agendar demo de 20 min

Plataforma deOtimização de Agentes de IA

Três linhas de código.O feedback cuida do resto.

Aponte seu client para o Floopy

Conecte um sinal de feedback

Suba. Veja o custo cair.

Mesma barra de qualidade.Metade da conta.

Tudo entre o prompte a produção.

Roteamento adaptativo

Cache semântico

Ciclos de feedback

Harness de eval

Tracing

Guardrails

Drop-in, em qualquer lugaronde você já está.

20 provedores.Um endpoint.

Quatro planos.Pague pelo valor capturado.

Perguntas frequentes

Seus usuários não vão notar.Seu CFO vai.

Plataforma de
Otimização de Agentes de IA

Três linhas de código.
O feedback cuida do resto.

Mesma barra de qualidade.
Metade da conta.

Tudo entre o prompt
e a produção.

Drop-in, em qualquer lugar
onde você já está.

20 provedores.
Um endpoint.

Quatro planos.
Pague pelo valor capturado.

Seus usuários não vão notar.
Seu CFO vai.