Reduza custos de LLM com segurança usando roteamento por feedback.
O Floopy aprende com NPS por sessão, LLM-as-judge, avaliações de admin e benchmarks para rotear cada requisição ao modelo mais barato que ainda atende suas restrições de qualidade. Cada decisão é auditável, explicável e reversível.
- ✓ Gateway compatível com OpenAI
- ✓ Shadow + canary nativos
- ✓ Histórico de decisões exportável
{
"chosen": "claude-haiku-4.5",
"baseline": "gpt-5.4-mini",
"confidence": 0.91,
"signals": {
"session_nps": +0.42,
"llm_judge": +0.31,
"admin_rating": +0.18,
"benchmark": +0.27
},
"constraints_passed": [
"max_regression < 2%",
"min_confidence ≥ 0.85"
],
"reversible": true
}Roteamento automático parece arriscado.
E deve mesmo parecer.
O Floopy muda qual modelo serve cada requisição. Essa é uma decisão crítica no seu produto e não pode viver dentro de uma caixa-preta. Cada otimização que o Floopy faz vem com trace, score de confiança, checagem de restrição e caminho de rollback.
Como o Floopy decide.
Um pipeline. Seis estágios. Cada estágio emite output estruturado para você ler, logar e replayar.
- NPS por sessão
- LLM-as-judge
- Avaliações de admin
- Benchmarks
- regressão máxima
- aumento máximo de custo
- confiança mínima
- entre outras
Em qualquer miss — confiança baixa, restrição falhada, erro de provedor — o Floopy serve seu modelo padrão e registra o miss no trace.
Trust controls.
Os primitivos que tornam o roteamento automático seguro de ligar, rota por rota.
Shadow mode
Rode o Floopy em paralelo com seu modelo padrão. Tráfego de produção não é afetado até você liberar rota a rota.
Decision trace
JSON por requisição: modelo escolhido, baseline, contribuições dos sinais, confiança, evidence (amostras, gap de score, variância, regressões bucketizadas) e uma explicação legível renderizada na sua língua. Streaming e queryable.
Restrições
Nove botões declarativos cobrindo limites de qualidade, limites de custo e portões de promoção. Limites rígidos — o router não viola, e cada mudança entra hasheada no log de auditoria.
Rollback de regressão
Pinne automaticamente uma rota no baseline se as regressões passarem do seu threshold na janela rolante. Override de uma linha disponível.
Export
Histórico de decisões exporta para S3, BigQuery ou webhook. Traga seu warehouse, sua retenção, seu SIEM.
Aprendizado isolado (Enterprise)
Saia do pool de aprendizado compartilhado. Seus modelos de roteamento treinam só com seu tráfego. SOC 2, HIPAA, BAA disponíveis.
Comece rápido. Valide com segurança.
O Floopy é compatível com OpenAI, então a integração começa com uma pequena mudança no SDK/client. Comece em shadow mode, inspecione os decision traces, e ative a otimização em produção quando a comparação contra baseline provar valor.
import OpenAI from 'openai'; const client = new OpenAI({ baseURL: "https://api.floopy.ai/v1", apiKey: process.env.FLOOPY_API_KEY, }); const res = await client.chat.completions.create({ model: 'auto', // deixa o Floopy escolher o mais barato que mantém qualidade messages, }); // conecte feedback depois pelo id da resposta await fetch("https://api.floopy.ai/v1/feedback", { method: "POST", body: JSON.stringify({ id: res.id, score: 1 }), });
from openai import OpenAI import os, requests client = OpenAI( base_url="https://api.floopy.ai/v1", api_key=os.environ["FLOOPY_API_KEY"], ) res = client.chat.completions.create( model="auto", messages=messages, ) # conecte feedback depois pelo id da resposta requests.post( "https://api.floopy.ai/v1/feedback", json={"id": res.id, "score": 1}, )
$ curl https://api.floopy.ai/v1/chat/completions \ -H "Authorization: Bearer $FLOOPY_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "auto", "messages": [...] }' # Depois: conecte feedback pelo id $ curl https://api.floopy.ai/v1/feedback \ -H "Authorization: Bearer $FLOOPY_API_KEY" \ -d '{ "id": "run_01h...", "score": 1 }'
Sua infraestrutura de IA consultável por agentes.
Conecte o Floopy aos seus agentes internos e deixe que eles inspecionem custos, auditem requisições, comparem provedores, analisem feedback e expliquem decisões de roteamento. O Floopy transforma logs, custos, feedback e trilhas de auditoria em contexto vivo para seus agentes de IA.
Conectado por token, isolado por design.
O servidor MCP é protegido por TBAC. Os dados da sua org não saem do seu tenant, e toda chamada de ferramenta é logada para replay.
Verifique a economia no seu próprio tráfego.
Benchmarks genéricos rendem decks bonitos. Eles não são o motivo de você adotar uma camada de roteamento. O Floopy compara o desfecho real do roteamento contra o baseline do seu modelo padrão, no seu próprio tráfego de produção, com seus próprios sinais de qualidade.
- ✓ Baseline = seu modelo padrão atual, espelhado do tráfego real.
- ✓ Sinal de qualidade = o que você já coleta — NPS, judge, avaliações de admin.
- ✓ Promoção para produção é uma alavanca manual por rota. Nunca automática.
| métrica | baseline | floopy | delta |
|---|---|---|---|
| Custo / requisição | $0.0142 | $0.0088 | −38.0% |
| Score de qualidade (judge + NPS combinados) | 0.812 | 0.819 | +0.9% |
| Latência p95 | 1,840 ms | 1,910 ms | +3.8% |
| Eventos de regressão (24h) | — | 0 / 12,418 | within threshold |
Gateway compatível com OpenAI.
Funciona com todos os principais provedores de IA — 20 suportados hoje através de um único endpoint.
Três escolhas de design que nenhum outro router faz.
E uma fórmula de pontuação publicada que você pode auditar em cada decisão.
Propagação por sessão
Uma única avaliação NPS por sessão se propaga para cada decisão de roteamento daquela sessão. Sem rotular requisição por requisição.
Pesos multi-fonte
Quatro fontes de feedback combinadas com pesos que se adaptam conforme sinal real se acumula — benchmarks primeiro, NPS quando chega.
Pool gerenciado e compartilhado
O sinal de cada cliente Floopy melhora o roteador compartilhado. Enterprise pode optar por aprendizado isolado.
Fórmula 40 / 40 / 20
Cada modelo candidato é pontuado com 40% de sucesso + 40% de feedback + 20% de custo. Publicada, auditável, replayável.
Preço simples para otimização de LLM em produção.
Comece pequeno, prove a economia em shadow mode, e faça upgrade quando precisar de exports, restrições, experimentos e retenção mais longa.
- 50.000 requisições / mês
- 20+ provedores (OpenAI, Anthropic, Gemini…)
- Cache exato + firewall LLM Firewall
- Retenção de logs por 7 dias
- 100 mil requisições / mês · 1k rpm
- API de feedback · 500 envios / mês
- Cache semântico
- Retenção de logs por 30 dias
- Roteamento por feedback
- Seletores inteligentes + A/B testing
- Firewall avançado (LLM Firewall)
- Retenção por 2 anos · 10k rpm
- SSO/SAML · SOC 2 · HIPAA
- SLA dedicado + suporte por Slack
- Opt-out do modelo compartilhado
- Isolamento dedicado de tenant
Gateway vs observabilidade vs otimização.
Portkey, Helicone e LiteLLM resolvem problemas reais — gatewaying, logging, observabilidade, normalização de provedor. O Floopy fica uma camada acima: o desfecho do usuário influencia qual modelo serve a próxima requisição, com restrições e traces em volta de cada decisão.
O Floopy roda confortavelmente atrás de um gateway que você já opera. Traga seu stack de logging. Traga seu vendor de observabilidade.
Perguntas frequentes.
As dúvidas mais comuns antes de ligar o roteamento por feedback.
Posso rodar o Floopy sem afetar a produção? +
O Floopy é um AI gateway ou uma camada de otimização? +
Como funciona o roteamento por feedback? +
Como vejo por que uma requisição foi roteada para um modelo? +
GET /v1/decisions/{id}.E se o Floopy tomar uma decisão ruim? +
Posso controlar o quão agressiva é a otimização? +
max_regression, max_cost_increase, min_confidence e restrições de roteamento por rota. O router não pode escolher um modelo que viola esses limites — violações caem para seu modelo padrão.O Floopy treina com meus dados? +
Como o Floopy é diferente de Portkey, Helicone e LiteLLM? +
Como verifico a economia no meu próprio tráfego? +
Posso exportar meus dados de decisão? +
GET /v1/export/decisions com gzip opcional e um trailer SHA-256 para verificabilidade. Mande para S3, BigQuery, ou para o seu warehouse — os dados são seus, sem lock-in.Comece em shadow mode.
Verifique a economia antes da produção.
Aponte seu SDK para o Floopy em shadow. Veja a comparação se preencher contra seu próprio baseline. Promova rotas uma a uma, com restrições escritas por você, no tempo que você controla.
Shadow mode não afeta o tráfego de produção. Decision traces são exportáveis desde o primeiro dia.