Skip to content
Começar
Inspecionável · com restrições · reversível

Reduza custos de LLM com segurança usando roteamento por feedback.

O Floopy aprende com NPS por sessão, LLM-as-judge, avaliações de admin e benchmarks para rotear cada requisição ao modelo mais barato que ainda atende suas restrições de qualidade. Cada decisão é auditável, explicável e reversível.

  • Gateway compatível com OpenAI
  • Shadow + canary nativos
  • Histórico de decisões exportável
decision_trace.json req_8f3a2c1
{
  "chosen": "claude-haiku-4.5",
  "baseline": "gpt-5.4-mini",
  "confidence": 0.91,
  "signals": {
    "session_nps":    +0.42,
    "llm_judge":      +0.31,
    "admin_rating":   +0.18,
    "benchmark":      +0.27
  },
  "constraints_passed": [
    "max_regression < 2%",
    "min_confidence ≥ 0.85"
  ],
  "reversible": true
}
shadow mode · últimas 24h ● ao vivo
custo / requisição
−38.2%
qualidade vs baseline
+0.6%
regressões
0 / 12,418
⚠ framing honesto

Roteamento automático parece arriscado.
E deve mesmo parecer.

O Floopy muda qual modelo serve cada requisição. Essa é uma decisão crítica no seu produto e não pode viver dentro de uma caixa-preta. Cada otimização que o Floopy faz vem com trace, score de confiança, checagem de restrição e caminho de rollback.

Decision traces
Cada requisição roteada emite um trace JSON: modelo escolhido, baseline, pesos dos sinais, confiança, evidence (amostras, gap de score, variância, regressões bucketizadas) e uma explicação legível na sua língua.
Gates de confiança
Rotas só viram quando a confiança passa do seu threshold. Abaixo disso, a requisição cai no modelo padrão.
Restrições rígidas
Nove botões declarativos cobrindo limites de qualidade, limites de custo e portões de promoção. O router não escolhe um modelo que viola esses limites.
Shadow + canary
Decisões novas rodam em paralelo com seu padrão pelo tempo que você quiser. Promova só quando os dados convencerem você.
Rollback por rota
Pinne qualquer rota de volta para o modelo padrão em uma chamada de API. O pin é logado e reversível.
como decide

Como o Floopy decide.

Um pipeline. Seis estágios. Cada estágio emite output estruturado para você ler, logar e replayar.

step 01
Requisição
turno do usuário entrando
step 02
Candidatos
modelos elegíveis para essa rota
Sinais
  • NPS por sessão
  • LLM-as-judge
  • Avaliações de admin
  • Benchmarks
Restrições
  • regressão máxima
  • aumento máximo de custo
  • confiança mínima
  • entre outras
step 05
Decision trace
assinado, exportável
step 06
Rota ou fallback
modelo padrão em caso de miss

Em qualquer miss — confiança baixa, restrição falhada, erro de provedor — o Floopy serve seu modelo padrão e registra o miss no trace.

controles de confiança

Trust controls.

Os primitivos que tornam o roteamento automático seguro de ligar, rota por rota.

pré-launch

Shadow mode

Rode o Floopy em paralelo com seu modelo padrão. Tráfego de produção não é afetado até você liberar rota a rota.

toda requisição

Decision trace

JSON por requisição: modelo escolhido, baseline, contribuições dos sinais, confiança, evidence (amostras, gap de score, variância, regressões bucketizadas) e uma explicação legível renderizada na sua língua. Streaming e queryable.

declarativo

Restrições

Nove botões declarativos cobrindo limites de qualidade, limites de custo e portões de promoção. Limites rígidos — o router não viola, e cada mudança entra hasheada no log de auditoria.

automático

Rollback de regressão

Pinne automaticamente uma rota no baseline se as regressões passarem do seu threshold na janela rolante. Override de uma linha disponível.

sem lock-in

Export

Histórico de decisões exporta para S3, BigQuery ou webhook. Traga seu warehouse, sua retenção, seu SIEM.

enterprise

Aprendizado isolado (Enterprise)

Saia do pool de aprendizado compartilhado. Seus modelos de roteamento treinam só com seu tráfego. SOC 2, HIPAA, BAA disponíveis.

Integração

Comece rápido. Valide com segurança.

O Floopy é compatível com OpenAI, então a integração começa com uma pequena mudança no SDK/client. Comece em shadow mode, inspecione os decision traces, e ative a otimização em produção quando a comparação contra baseline provar valor.

agent.ts
import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: "https://api.floopy.ai/v1",
  apiKey: process.env.FLOOPY_API_KEY,
});

const res = await client.chat.completions.create({
  model: 'auto',   // deixa o Floopy escolher o mais barato que mantém qualidade
  messages,
});

// conecte feedback depois pelo id da resposta
await fetch("https://api.floopy.ai/v1/feedback", {
  method: "POST",
  body: JSON.stringify({ id: res.id, score: 1 }),
});
from openai import OpenAI
import os, requests

client = OpenAI(
  base_url="https://api.floopy.ai/v1",
  api_key=os.environ["FLOOPY_API_KEY"],
)

res = client.chat.completions.create(
  model="auto",
  messages=messages,
)

# conecte feedback depois pelo id da resposta
requests.post(
  "https://api.floopy.ai/v1/feedback",
  json={"id": res.id, "score": 1},
)
$ curl https://api.floopy.ai/v1/chat/completions \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{ "model": "auto", "messages": [...] }'

# Depois: conecte feedback pelo id
$ curl https://api.floopy.ai/v1/feedback \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -d '{ "id": "run_01h...", "score": 1 }'
mcp · model context protocol

Sua infraestrutura de IA consultável por agentes.

Conecte o Floopy aos seus agentes internos e deixe que eles inspecionem custos, auditem requisições, comparem provedores, analisem feedback e expliquem decisões de roteamento. O Floopy transforma logs, custos, feedback e trilhas de auditoria em contexto vivo para seus agentes de IA.

ferramentas mcp que seus agentes podem chamar lista completa nas docs
tool
floopy. get_analytics ()
Detalhamento de tokens e custo por feature, rota e provedor em qualquer janela de tempo.
AnalyticsWindow
tool
floopy. get_decision ()
Audit completa de uma requisição: sinais, restrições, escolhido vs baseline, veredicto do firewall.
DecisionAudit
tool
floopy. get_verification ()
Qualidade e custo lado a lado entre modelos candidatos sobre tráfego real, não benchmarks.
VerificationAggregate
tool
floopy. list_decisions ()
Filtre decisões recentes por sessão, rota ou janela para encontrar outliers de baixa qualidade.
Decision[]
tool
floopy. explain_routing ()
Faça dry-run de uma decisão de roteamento e veja a escolha do gateway — sem chamar provedor, sem log.
RoutingDecision
tool
floopy. list_models ()
Inventário de provedores e modelos configurados para esta organização.
ModelInventory
pergunte no seu llm preferido linguagem natural → chamadas de ferramentas
ask_your_llm.session mcp conectado
01
user
Qual modelo tem o menor custo por sessão resolvida?
02
user
Qual feature está desperdiçando mais tokens?
03
user
Encontre decisões com baixa qualidade e alta latência.
04
user
Explique por que essa requisição foi pro GPT-4 e não pro baseline.
roteado para → floopy-mcp · seu modelo · seu prompt · seu data plane
segurança

Conectado por token, isolado por design.

O servidor MCP é protegido por TBAC. Os dados da sua org não saem do seu tenant, e toda chamada de ferramenta é logada para replay.

Tokens TBAC
Conecte com tokens de curta duração escopados por tag e recurso. Cada agente só vê o que o token dele permite.
Dados isolados por org
Chamadas de ferramentas atingem só o seu tenant. Sem leituras cross-org, sem learning compartilhado, sem cache compartilhado. Auditável a cada chamada.
Leitura por padrão
Ferramentas de inspeção são read-only. Mutações como create_experiment ou update_constraints exigem tokens separados com escopo de confirmação.
audit trail · via mcp
O Floopy expõe sua própria trilha de auditoria via MCP. Deixe seus agentes internos inspecionarem decisões do gateway, mudanças de rota, sinais de feedback e anomalias de custo — sem sair da IDE ou do chat.
conectar mcp
seu tráfego, seus números

Verifique a economia no seu próprio tráfego.

Benchmarks genéricos rendem decks bonitos. Eles não são o motivo de você adotar uma camada de roteamento. O Floopy compara o desfecho real do roteamento contra o baseline do seu modelo padrão, no seu próprio tráfego de produção, com seus próprios sinais de qualidade.

  • Baseline = seu modelo padrão atual, espelhado do tráfego real.
  • Sinal de qualidade = o que você já coleta — NPS, judge, avaliações de admin.
  • Promoção para produção é uma alavanca manual por rota. Nunca automática.
shadow_comparison · últimas 24h · rota: /v1/chat ● ao vivo
métricabaselinefloopydelta
Custo / requisição$0.0142$0.0088−38.0%
Score de qualidade (judge + NPS combinados)0.8120.819+0.9%
Latência p951,840 ms1,910 ms+3.8%
Eventos de regressão (24h)0 / 12,418within threshold
valores de exemplo — o seu dashboard renderiza os seus próprios números
Provedores

Gateway compatível com OpenAI.

Funciona com todos os principais provedores de IA — 20 suportados hoje através de um único endpoint.

OpenAIAnthropicGoogle GeminiGoogle VertexAWS BedrockAzure OpenAIDeepSeekMistralxAIGroqCerebrasSambaNovaTogetherFireworksPerplexityCohereAI21DeepInfraNebiusNovita Ver todos os provedores →
O que torna o Floopy diferente

Três escolhas de design que nenhum outro router faz.

E uma fórmula de pontuação publicada que você pode auditar em cada decisão.

Propagação por sessão

Uma única avaliação NPS por sessão se propaga para cada decisão de roteamento daquela sessão. Sem rotular requisição por requisição.

Pesos multi-fonte

Quatro fontes de feedback combinadas com pesos que se adaptam conforme sinal real se acumula — benchmarks primeiro, NPS quando chega.

Pool gerenciado e compartilhado

O sinal de cada cliente Floopy melhora o roteador compartilhado. Enterprise pode optar por aprendizado isolado.

Fórmula 40 / 40 / 20

Cada modelo candidato é pontuado com 40% de sucesso + 40% de feedback + 20% de custo. Publicada, auditável, replayável.

Preços

Preço simples para otimização de LLM em produção.

Comece pequeno, prove a economia em shadow mode, e faça upgrade quando precisar de exports, restrições, experimentos e retenção mais longa.

Free
$0 /mês
Explore o Floopy em um plano gratuito com limites.
  • 50.000 requisições / mês
  • 20+ provedores (OpenAI, Anthropic, Gemini…)
  • Cache exato + firewall LLM Firewall
  • Retenção de logs por 7 dias
Começar grátis
Starter
$29.90 /mês
Construa algo real com seu próprio sinal de feedback.
  • 100 mil requisições / mês · 1k rpm
  • API de feedback · 500 envios / mês
  • Cache semântico
  • Retenção de logs por 30 dias
Assinar
Enterprise
Sob consulta
Compliance, isolamento, SLA e suporte dedicado.
  • SSO/SAML · SOC 2 · HIPAA
  • SLA dedicado + suporte por Slack
  • Opt-out do modelo compartilhado
  • Isolamento dedicado de tenant
Falar com vendas
mapa de categoria

Gateway vs observabilidade vs otimização.

Portkey, Helicone e LiteLLM resolvem problemas reais — gatewaying, logging, observabilidade, normalização de provedor. O Floopy fica uma camada acima: o desfecho do usuário influencia qual modelo serve a próxima requisição, com restrições e traces em volta de cada decisão.

gateway
Provider gateway
Portkey · LiteLLM
Normalização de provedor
Configuração de roteamento regras manuais
Logging
Roteamento por feedback
Decision traces com pesos dos sinais
observabilidade
LLM observability
Helicone · Langfuse
Normalização de provedor parcial
Configuração de roteamento
Logging
Roteamento por feedback
Decision traces com pesos dos sinais
otimização
Floopy
otimização por feedback
Normalização de provedor
Configuração de roteamento aprendido + com restrições
Logging ✓ + decision trace
Roteamento por feedback
Decision traces com pesos dos sinais

O Floopy roda confortavelmente atrás de um gateway que você já opera. Traga seu stack de logging. Traga seu vendor de observabilidade.

FAQ

Perguntas frequentes.

As dúvidas mais comuns antes de ligar o roteamento por feedback.

Posso rodar o Floopy sem afetar a produção? +
Sim. Comece em shadow mode. O Floopy calcula as decisões de roteamento em paralelo enquanto seu provedor atual continua servindo as respostas. Você inspeciona o que ele teria escolhido, com decision traces completos, antes de qualquer tráfego real ser desviado.
O Floopy é um AI gateway ou uma camada de otimização? +
Ambos, mas o core é a camada de otimização. O Floopy entrega um gateway compatível com OpenAI para que a integração seja uma troca de base-URL, mas o produto em cima é o roteamento por feedback: candidatos, sinais, restrições, decision traces e rollouts reversíveis.
Como funciona o roteamento por feedback? +
Quatro sinais alimentam o router: NPS por sessão (uma avaliação propagada por todas as decisões daquela sessão), LLM-as-judge rodando a cada requisição, avaliações de admin e benchmarks públicos. Os pesos são dinâmicos por fase — benchmarks dominam no Day 0; quando sua org acumula sinal, o feedback automático entra; quando você loga NPS, o NPS por sessão vira o sinal primário. Fase e pesos ficam visíveis no trace de cada decisão.
Como vejo por que uma requisição foi roteada para um modelo? +
Cada requisição gera um decision trace com candidatos considerados, pesos aplicados, motivos de filtro, vencedor, score de confiança e o resultado das checagens de restrição. Inspecione no dashboard ou via GET /v1/decisions/{id}.
E se o Floopy tomar uma decisão ruim? +
Decisões ruins podem acontecer em qualquer sistema de roteamento. O Floopy reduz o blast radius com restrições rígidas (regressão máxima, aumento máximo de custo, confiança mínima), thresholds de confiança, monitoramento de regressão, experimentos canary e shadow, e rollback de uma chamada por rota. Decisões ruins são limitadas, observáveis e reversíveis.
Posso controlar o quão agressiva é a otimização? +
Sim. Configure max_regression, max_cost_increase, min_confidence e restrições de roteamento por rota. O router não pode escolher um modelo que viola esses limites — violações caem para seu modelo padrão.
O Floopy treina com meus dados? +
Free e Pro usam sinais de roteamento agregados para melhorar priors compartilhados — nunca prompts ou completions cruas. Prompts e respostas crus não são usados para aprendizado compartilhado. Enterprise pode rodar com aprendizado isolado, sem fluxo de sinal cross-tenant.
Como o Floopy é diferente de Portkey, Helicone e LiteLLM? +
Portkey e LiteLLM são gateways — normalização de provedor, regras de roteamento, logging. Helicone e Langfuse são observabilidade. O Floopy fica uma camada acima: o desfecho do usuário influencia qual modelo serve a próxima requisição, com restrições e traces em volta de cada decisão. Você pode rodar o Floopy atrás de um gateway que já opera, e mandar logs para o vendor de observabilidade que já paga.
Como verifico a economia no meu próprio tráfego? +
Use shadow mode e o relatório de comparação baseline-vs-Floopy. Benchmarks genéricos rendem decks bonitos, mas o número que importa é o que acontece no seu tráfego, contra seus próprios sinais de qualidade. A promoção para produção é sempre uma alavanca manual por rota.
Posso exportar meus dados de decisão? +
Sim. O histórico de decisões exporta como JSONL via GET /v1/export/decisions com gzip opcional e um trailer SHA-256 para verificabilidade. Mande para S3, BigQuery, ou para o seu warehouse — os dados são seus, sem lock-in.
Adoção segura

Comece em shadow mode.
Verifique a economia antes da produção.

Aponte seu SDK para o Floopy em shadow. Veja a comparação se preencher contra seu próprio baseline. Promova rotas uma a uma, com restrições escritas por você, no tempo que você controla.

Shadow mode não afeta o tráfego de produção. Decision traces são exportáveis desde o primeiro dia.