Plataforma de
Otimização de Agentes de IA
O Floopy fica entre seu agente e os provedores de modelo. Cada chamada é roteada para o modelo mais barato que ainda atende sua barra de qualidade — aprendido de feedback real, não de intuição.
Três linhas de código.
O feedback cuida do resto.
Troque a base URL da sua chamada LLM, conecte um sinal de feedback, e o Floopy começa a aprender qual modelo basta para cada rota. Sem reescrever prompts, sem montar evals, sem mudar pipeline.
Aponte seu client para o Floopy
Uma linha. Use o SDK da OpenAI que você já usa — só troque a base URL. Anthropic, Google e Mistral funcionam pelo mesmo formato compatível com OpenAI.
import OpenAI from 'openai'; const client = new OpenAI({ baseURL: "https://api.floopy.ai/v1", apiKey: process.env.FLOOPY_API_KEY, });
Conecte um sinal de feedback
Thumbs up/down, task completion, rewrite count — qualquer coisa que você já loga. Uma métrica basta para começar.
await fetch("https://api.floopy.ai/v1/feedback", { method: "POST", body: JSON.stringify({ id: run.id, score: 1, reason: "resolved", }), });
Suba. Veja o custo cair.
O Floopy testa modelos mais baratos em canary, promove os que passam na sua barra de qualidade e faz rollback em regressões.
// Depois de 48h de shadow traffic gpt-4o → -62% claude-sonnet → -41% quality → +0.3σ
Mesma barra de qualidade.
Metade da conta.
Medido em 12.000 traces de produção de um agente de atendimento. Qualidade mantida dentro de um desvio padrão do baseline GPT-4o.
Ler a metodologia completa →Tudo entre o prompt
e a produção.
Não é mais um dashboard de observabilidade. O Floopy intervém ativamente — roteia, faz cache, fallback, canary — te entregando os traces e evals para confiar no que ele está fazendo.
Roteamento adaptativo
Política por rota aprendida do feedback. Pinna em regressão, canarycia em drift, reavalia a cada modelo novo na semana em que chega.
Cache semântico
Fingerprint de request + tools + contexto. Hits exatos e por paráfrase, versionado por rota, TTL por sinal.
Ciclos de feedback
Thumbs, rewrites, completion, NPS — o que você já coleta. RLHF offline sem time de dados.
Harness de eval
LLM-as-judge, rubric evals e golden sets. Roda em todo candidato a promoção antes do tráfego real.
Tracing
Cada tool call, token e julgamento. OpenTelemetry-native, exporte para Datadog, Honeycomb ou S3.
Guardrails
Redação de PII, detecção de prompt injection, pinagem por região e cap de budget por tenant. Ligado por padrão.
Drop-in, em qualquer lugar
onde você já está.
Use o SDK da OpenAI que você já usa em Node, Python, Go ou Deno. Stream-safe, tool-calling-safe e compatível com todo provedor que fala o wire format da OpenAI.
import OpenAI from 'openai'; const client = new OpenAI({ baseURL: "https://api.floopy.ai/v1", apiKey: process.env.FLOOPY_API_KEY, }); const res = await client.chat.completions.create({ model: 'auto', // deixa o Floopy escolher o mais barato que mantém qualidade messages, }); // conecte feedback depois pelo id da resposta await fetch("https://api.floopy.ai/v1/feedback", { method: "POST", body: JSON.stringify({ id: res.id, score: 1 }), });
from openai import OpenAI import os, requests client = OpenAI( base_url="https://api.floopy.ai/v1", api_key=os.environ["FLOOPY_API_KEY"], ) res = client.chat.completions.create( model="auto", messages=messages, ) # conecte feedback depois pelo id da resposta requests.post( "https://api.floopy.ai/v1/feedback", json={"id": res.id, "score": 1}, )
$ curl https://api.floopy.ai/v1/chat/completions \ -H "Authorization: Bearer $FLOOPY_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "auto", "messages": [...] }' # Depois: conecte feedback pelo id $ curl https://api.floopy.ai/v1/feedback \ -H "Authorization: Bearer $FLOOPY_API_KEY" \ -d '{ "id": "run_01h...", "score": 1 }'
20 provedores.
Um endpoint.
Traga suas próprias chaves ou use os padrões do Floopy. O roteamento é compatível com OpenAI — seu código não muda quando o melhor modelo muda.
Quatro planos.
Pague pelo valor capturado.
Grátis até você ver economia real. Depois disso, uma mensalidade simples ou um contrato customizado para enterprise.
- 5.000 requisições / mês
- 20+ provedores (OpenAI, Anthropic, Gemini…)
- Cache exato + firewall LLM Firewall
- Retenção de logs por 7 dias
- 100 mil requisições / mês · 2k rpm
- API de feedback · 500 envios / mês
- Cache semântico
- Retenção de logs por 30 dias
- Roteamento por feedback
- Seletores inteligentes + A/B testing
- Firewall avançado (LLM Firewall)
- Retenção por 2 anos · 10k rpm
- SSO/SAML · SOC 2 · HIPAA
- SLA dedicado + suporte por Slack
- Opt-out do modelo compartilhado
- Isolamento dedicado de tenant
Perguntas frequentes
Como o roteamento guiado por feedback funciona, como o Floopy difere de gateways e ferramentas de LLMOps, e as perguntas de privacidade que você vai fazer.
O que é o Floopy? +
Como funciona o roteamento guiado por feedback? +
floopy-session-id. Você faz POST de uma nota NPS por sessão em /v1/feedback, e essa nota propaga para cada decisão de roteamento daquela sessão — não exige rating por resposta. O router combina quatro sinais (NPS de sessão, LLM-as-judge, avaliações de admin, benchmarks públicos) com pesos dinâmicos: benchmarks dominam no dia 0, feedback automático assume após 10 requisições, NPS de sessão se torna primário após 10 sessões com feedback. Menor custo, mesma qualidade, sem nova instrumentação.O Floopy é um AI Gateway? +
O que acontece com meus dados nos planos Free/Pro vs Enterprise? +
Preciso instrumentar algo novo para usar o loop de feedback do Floopy? +
floopy-session-id. É isso. Se você ainda não coleta feedback de usuário, o Floopy continua melhorando o roteamento automaticamente via scoring LLM-as-judge em cada requisição — você tem o benefício do loop mesmo com zero input do usuário. O loop funciona com qualquer sinal que você tenha.Por que uma nota por sessão em vez de por resposta? +
O Floopy é uma alternativa ao Portkey? +
/v1/feedback para fechar um loop de roteamento — futuras requisições em sessões similares roteiam para modelos mais baratos quando a qualidade se mantém. O Portkey é um gateway; o Floopy é uma plataforma de otimização que inclui o gateway.Qual a diferença entre o Floopy e o Helicone? +
Posso substituir o LiteLLM pelo Floopy? +
O Floopy é realmente mais rápido que chamar a OpenAI diretamente? +
Quanta memória o gateway usa? +
E quanto à privacidade de dados e PII? +
Seus usuários não vão notar.
Seu CFO vai.
Comece a rotear em menos de 10 minutos. Grátis até 100k chamadas por mês, sem cartão de crédito.