Skip to content
Começar
Por que Floopy

O Floopy não é um AI Gateway. É uma Plataforma de Otimização de Agentes de IA.

A categoria importa porque define expectativas. Um AI gateway intermedia requisições; uma ferramenta de observabilidade registra logs; middleware encapsula SDKs; uma plataforma LLMOps com loop de feedback fecha a decisão de roteamento contra resultados reais. O Floopy inclui recursos de proxy, observabilidade e middleware, mas o produto central é a otimização contínua de agentes — veja abaixo onde nos encaixamos e o que muda.

Matriz de capacidades

Matriz de capacidades por categoria

Cinco categorias, não quatro — LLMOps com loop de feedback merece sua própria coluna.

CapacidadeAI GatewayObservabilidadeMiddlewareLLMOps com loop de feedbackFloopy
Regras de roteamento estáticas
Roteamento orientado a feedback
Observabilidade
Fallback baseado em regras
Fallback aprendido a partir da produção
Fontes de feedbackÚnica (binária)Métricas do desenvolvedorNenhumaMétricas do desenvolvedorQuatro fontes com pesos dinâmicos
Granularidade do feedbackPor requisiçãoPor requisição ou traceN/APor requisição ou tracePropagação em nível de sessão
ArquiteturaProxy gerenciadoSDK + backendWrapper de SDKAuto-hospedado (TensorZero)SaaS gerenciado com opt-out
Rastreio de custo por requisição
Medição de ROI por sessãoParcial

Regras de roteamento estáticas

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Roteamento orientado a feedback

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Observabilidade

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Fallback baseado em regras

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Fallback aprendido a partir da produção

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Fontes de feedback

AI Gateway
Única (binária)
Observabilidade
Métricas do desenvolvedor
Middleware
Nenhuma
LLMOps com loop de feedback
Métricas do desenvolvedor
Floopy
Quatro fontes com pesos dinâmicos

Granularidade do feedback

AI Gateway
Por requisição
Observabilidade
Por requisição ou trace
Middleware
N/A
LLMOps com loop de feedback
Por requisição ou trace
Floopy
Propagação em nível de sessão

Arquitetura

AI Gateway
Proxy gerenciado
Observabilidade
SDK + backend
Middleware
Wrapper de SDK
LLMOps com loop de feedback
Auto-hospedado (TensorZero)
Floopy
SaaS gerenciado com opt-out

Rastreio de custo por requisição

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Medição de ROI por sessão

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Parcial
Floopy
Comparações nomeadas

Comparações nomeadas

Onde o Floopy se posiciona ao lado das ferramentas com as quais você pode estar comparando — reconhecendo forças e traçando claramente a categoria.

Portkey

O Portkey é um AI gateway sólido com gerenciamento de prompts, observabilidade e roteamento de requisições — amplamente usado por equipes que precisam de acesso unificado a LLMs e rastreio de custos. O Floopy inclui essas capacidades de gateway, mas o produto é a otimização contínua de agentes: propagação de feedback em nível de sessão e pesos dinâmicos multi-fonte decidem qual modelo atende cada chamada. Se você precisa de proxy e biblioteca de prompts, o Portkey encaixa; se você quer que o gateway também aprenda com o sinal do usuário final, o Floopy é a escolha.

Helicone

O Helicone é uma camada forte de observabilidade — logs por requisição, cache e APIs de feedback para debug e coleta de dados de fine-tune. O Floopy também registra toda requisição e aceita pontuações, mas a unidade de aprendizado é diferente: um NPS por sessão propagado a cada decisão de roteamento naquela sessão, em vez de likes por resposta. Se o objetivo é dados de debug por requisição, o Helicone funciona bem; se o objetivo é roteamento em nível de sessão que melhora contra resultados do usuário final, o Floopy é feito para isso.

LiteLLM

O LiteLLM é um excelente proxy open-source para unificar chamadas de SDK multi-provedor com regras de retry e fallback — encaixe natural se você roda sua própria infraestrutura e quer apenas roteamento estático. O Floopy é SaaS gerenciado e vai além: o roteador aprende com NPS de sessão, pontuação LLM-as-judge, avaliações manuais e benchmarks públicos, com pesos que mudam à medida que o sinal se acumula. Use o LiteLLM quando quiser a ergonomia de um proxy auto-hospedado; use o Floopy quando quiser roteamento orientado a feedback sem operar a infraestrutura.

Maxim

O Maxim foca em avaliação, experimentação e teste de prompts — uma ferramenta útil durante o desenvolvimento para comparar saídas de modelo e medir qualidade de prompt offline. O Floopy é um loop de feedback em tempo de produção: o NPS de sessão ao vivo e a pontuação automática re-rankeiam modelos continuamente para que o roteamento melhore depois do deploy, não apenas antes. Maxim e Floopy são complementares — pipelines de avaliação de um lado, otimização em runtime do outro.

Bifrost

O Bifrost é um gateway LLM rápido em Rust focado em proxy de requisições com baixa latência. O Floopy também mantém o overhead de latência baixo (veja a página de benchmarks), mas a diferença central é o que o gateway faz com esse orçamento de latência: o Floopy executa uma decisão de roteamento orientada a feedback por requisição, informada por sinal em nível de sessão, em vez de um proxy puramente estático. Se você precisa do proxy mais fino possível, o Bifrost vence em latência; se você quer um gateway que aprende, o Floopy foi projetado para isso.

TensorZero

O TensorZero foi pioneiro na abordagem open-source de loop de feedback em 2024, com excelente engenharia e arquitetura auto-hospedada. Se sua equipe tem capacidade de DevOps e quer controle total da infraestrutura, é uma escolha sólida. O Floopy segue um caminho diferente: SaaS gerenciado, NPS de sessão do usuário final como sinal primário (em vez de métricas definidas pelo desenvolvedor) e inteligência cross-tenant que melhora o roteamento de cada cliente à medida que a plataforma cresce. Escolha com base em se você quer operar a infraestrutura e em qual fonte de feedback confia mais.

Princípios de design

Quatro regras que não quebramos.

São as restrições às quais seguramos o produto. Quando algo precisa ceder, não são elas.

01 / Qualidade primeiro

Nunca troque qualidade por custo sem seu aval.

Toda rota candidata passa por canário e barra de avaliação. Regressões voltam atrás em segundos, não em sprints.

quality = 0.95 → piso rígido
02 / Zero lock-in

Um flag desliga tudo.

Floopy é um drop-in baseURL para o SDK da OpenAI que você já usa. Sair é uma mudança de config de uma linha, não um projeto de migração.

baseURL: "https://api.openai.com/v1" → passthrough
03 / Mostre seu trabalho

Toda decisão é explicável.

Toda chamada roteada tem uma string de motivo. Toda promoção tem um diff. Todo rollback tem um trace.

span.floopy_reason = "haiku::cached"
04 / Pago por resultado

Se não economizou, não cobra.

Cobramos contra uma baseline medida, não um preço de tabela. O cliente vê a linha; nós também.

invoice = max(0, savings × 0.15)
Onde se encaixa

Inline, mas fora do caminho.

O Floopy é um control plane fino entre sua aplicação e os provedores que você já usa. Ele cuida de roteamento, cache e feedback — nada mais. Seus prompts, sua lógica e suas ferramentas continuam no seu código.

Overhead p50 3,1ms
Overhead p99 7,8ms
Streaming First-token preservado
Modo zero-retenção Disponível
FAQ

Perguntas frequentes

Respostas mais profundas sobre como o Floopy se relaciona com TensorZero, Portkey, Helicone e LiteLLM — e sobre feedback em nível de sessão vs por requisição.

O Floopy é uma alternativa ao Portkey?+
Mesmas primitivas de gateway, escopo diferente. O que é igual: endpoint compatível com OpenAI, roteamento multi-provider, caching, rate limiting, logging de request/response, firewall por LLM, dashboard de auditoria. O que difere: o Floopy entrega um router guiado por feedback (NPS de sessão para decisões de roteamento), confidence por decisão em cada linha de auditoria, um endpoint de dry-run (POST /v1/routing/explain), constraints de otimização declarados pelo cliente (PUT /v1/constraints), experimentos em modo shadow (POST /v1/experiments) e exportação em JSONL com trailer SHA-256 (GET /v1/export/decisions). O Portkey investe mais em prompt management e traces de agente; o Floopy investe em fechar o loop entre o resultado sentido pelo usuário e o roteamento. Se você precisa principalmente de um gateway configurável, o Portkey cobre. Se você também quer um router que aprende com sinais que você já coleta, o Floopy encaixa.
Qual a diferença entre o Floopy e o Helicone?+
O Helicone é excelente em observabilidade por requisição e feedback de desenvolvedor — cada chamada recebe seu próprio rating. O Floopy assume a posição oposta: uma nota NPS por sessão propaga para cada decisão de roteamento daquela sessão, porque a qualidade de um agente depende da trajetória inteira, não de respostas individuais. Se você quer tracking granular por requisição, o Helicone encaixa. Se você quer que o router aprenda com sinal de nível de sessão do usuário final que você já coleta, o Floopy encaixa.
Posso substituir o LiteLLM pelo Floopy?+
Para a camada de proxy, na maior parte sim. O Floopy suporta 20 providers — OpenAI, Anthropic, Google Gemini, Google Vertex AI, AWS Bedrock, Azure OpenAI, DeepSeek, Mistral, xAI, Groq, Cerebras, SambaNova, Together AI, Fireworks AI, Perplexity, Cohere, AI21 Labs, DeepInfra, Nebius, Novita — através de um único endpoint compatível com OpenAI. Streaming, tool calls e entradas de visão são cobertos para os majors (OpenAI, Anthropic, Gemini, Bedrock); para os demais, streaming e tools são suportados, e a cobertura de visão varia por modelo. O LiteLLM suporta mais providers (100+) e é open-source se você quiser self-hosting. O Floopy troca contagem bruta de providers por um loop de feedback gerenciado, um firewall por LLM, uma API de auditoria e um export de decisões. Se você auto-hospeda o LiteLLM apenas para normalização, ambos servem; se você quer o loop, é isso que o Floopy adiciona.
O Floopy é uma alternativa ao TensorZero?+
Mesmo espaço de problema, postura diferente sobre pooling de dados. O TensorZero é open-source e self-hosted, então todo o sinal fica dentro da sua infraestrutura. O Floopy é SaaS gerenciado com agregação cross-tenant em um conjunto restrito de campos: NPS de sessão agregado, scores LLM-as-judge por (provider, model) e deltas de benchmark. O que NÃO é poolizado: prompts brutos, respostas brutas, identificadores de organização, identificadores de usuário, request bodies, response bodies. Os sinais agregados influenciam os priors compartilhados que aquecem a fase Day-0 para novas orgs; uma vez que sua org tem dados próprios, seus pesos dominam. Enterprise pode optar por sair do pooling por completo. Escolha o TensorZero se você precisa rodar o gateway você mesmo ou se não pode compartilhar nenhum sinal. Escolha o Floopy se você quer infraestrutura gerenciada e o ganho de velocidade dos priors aquecidos via sinal agregado e sem PII.
Por que uma nota por sessão em vez de por resposta?+
Porque a qualidade de um agente depende da trajetória, não da resposta. Tool calls, retries e passos de raciocínio dentro de uma sessão influenciam o resultado final que o usuário sente — então um NPS por sessão credita ou penaliza cada decisão de roteamento daquela sessão. O sinal por requisição segue disponível: cada requisição recebe uma pontuação LLM-as-judge em quatro dimensões (relevância, coerência, utilidade, segurança), registrada no decision_trace e consultável via GET /v1/decisions/{id}. Você também pode enviar feedback por requisição via POST para /v1/feedback com um request id — o router aceita e pondera dentro da fase Auto. O default é NPS de sessão porque é o que a maioria dos times já coleta; a opção de anexar sinal por requisição é real e está em produção, só não é o caminho principal.

Pronto para fechar o loop?

Comece no Free ou fale com a gente sobre o isolamento Enterprise e ranqueamento customizado de modelos.

Comece grátis Falar com Enterprise