Skip to content
Ffloopy
Por que Floopy

O Floopy não é um AI Gateway. É uma Plataforma de Otimização de Agentes de IA.

A categoria importa porque define expectativas. Um AI gateway intermedia requisições; uma ferramenta de observabilidade registra logs; middleware encapsula SDKs; uma plataforma LLMOps com loop de feedback fecha a decisão de roteamento contra resultados reais. O Floopy inclui recursos de proxy, observabilidade e middleware, mas o produto central é a otimização contínua de agentes — veja abaixo onde nos encaixamos e o que muda.

Matriz de capacidades

Matriz de capacidades por categoria

Cinco categorias, não quatro — LLMOps com loop de feedback merece sua própria coluna.

CapacidadeAI GatewayObservabilidadeMiddlewareLLMOps com loop de feedbackFloopy
Regras de roteamento estáticas
Roteamento orientado a feedback
Observabilidade
Fallback baseado em regras
Fallback aprendido a partir da produção
Fontes de feedbackÚnica (binária)Métricas do desenvolvedorNenhumaMétricas do desenvolvedorQuatro fontes com pesos dinâmicos
Granularidade do feedbackPor requisiçãoPor requisição ou traceN/APor requisição ou tracePropagação em nível de sessão
ArquiteturaProxy gerenciadoSDK + backendWrapper de SDKAuto-hospedado (TensorZero)SaaS gerenciado com opt-out
Rastreio de custo por requisição
Medição de ROI por sessãoParcial

Regras de roteamento estáticas

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Roteamento orientado a feedback

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Observabilidade

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Fallback baseado em regras

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Fallback aprendido a partir da produção

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Fontes de feedback

AI Gateway
Única (binária)
Observabilidade
Métricas do desenvolvedor
Middleware
Nenhuma
LLMOps com loop de feedback
Métricas do desenvolvedor
Floopy
Quatro fontes com pesos dinâmicos

Granularidade do feedback

AI Gateway
Por requisição
Observabilidade
Por requisição ou trace
Middleware
N/A
LLMOps com loop de feedback
Por requisição ou trace
Floopy
Propagação em nível de sessão

Arquitetura

AI Gateway
Proxy gerenciado
Observabilidade
SDK + backend
Middleware
Wrapper de SDK
LLMOps com loop de feedback
Auto-hospedado (TensorZero)
Floopy
SaaS gerenciado com opt-out

Rastreio de custo por requisição

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Floopy

Medição de ROI por sessão

AI Gateway
Observabilidade
Middleware
LLMOps com loop de feedback
Parcial
Floopy
Comparações nomeadas

Comparações nomeadas

Onde o Floopy se posiciona ao lado das ferramentas com as quais você pode estar comparando — reconhecendo forças e traçando claramente a categoria.

Portkey

O Portkey é um AI gateway sólido com gerenciamento de prompts, observabilidade e roteamento de requisições — amplamente usado por equipes que precisam de acesso unificado a LLMs e rastreio de custos. O Floopy inclui essas capacidades de gateway, mas o produto é a otimização contínua de agentes: propagação de feedback em nível de sessão e pesos dinâmicos multi-fonte decidem qual modelo atende cada chamada. Se você precisa de proxy e biblioteca de prompts, o Portkey encaixa; se você quer que o gateway também aprenda com o sinal do usuário final, o Floopy é a escolha.

Helicone

O Helicone é uma camada forte de observabilidade — logs por requisição, cache e APIs de feedback para debug e coleta de dados de fine-tune. O Floopy também registra toda requisição e aceita pontuações, mas a unidade de aprendizado é diferente: um NPS por sessão propagado a cada decisão de roteamento naquela sessão, em vez de likes por resposta. Se o objetivo é dados de debug por requisição, o Helicone funciona bem; se o objetivo é roteamento em nível de sessão que melhora contra resultados do usuário final, o Floopy é feito para isso.

LiteLLM

O LiteLLM é um excelente proxy open-source para unificar chamadas de SDK multi-provedor com regras de retry e fallback — encaixe natural se você roda sua própria infraestrutura e quer apenas roteamento estático. O Floopy é SaaS gerenciado e vai além: o roteador aprende com NPS de sessão, pontuação LLM-as-judge, avaliações manuais e benchmarks públicos, com pesos que mudam à medida que o sinal se acumula. Use o LiteLLM quando quiser a ergonomia de um proxy auto-hospedado; use o Floopy quando quiser roteamento orientado a feedback sem operar a infraestrutura.

Maxim

O Maxim foca em avaliação, experimentação e teste de prompts — uma ferramenta útil durante o desenvolvimento para comparar saídas de modelo e medir qualidade de prompt offline. O Floopy é um loop de feedback em tempo de produção: o NPS de sessão ao vivo e a pontuação automática re-rankeiam modelos continuamente para que o roteamento melhore depois do deploy, não apenas antes. Maxim e Floopy são complementares — pipelines de avaliação de um lado, otimização em runtime do outro.

Bifrost

O Bifrost é um gateway LLM rápido em Rust focado em proxy de requisições com baixa latência. O Floopy também mantém o overhead de latência baixo (veja a página de benchmarks), mas a diferença central é o que o gateway faz com esse orçamento de latência: o Floopy executa uma decisão de roteamento orientada a feedback por requisição, informada por sinal em nível de sessão, em vez de um proxy puramente estático. Se você precisa do proxy mais fino possível, o Bifrost vence em latência; se você quer um gateway que aprende, o Floopy foi projetado para isso.

TensorZero

O TensorZero foi pioneiro na abordagem open-source de loop de feedback em 2024, com excelente engenharia e arquitetura auto-hospedada. Se sua equipe tem capacidade de DevOps e quer controle total da infraestrutura, é uma escolha sólida. O Floopy segue um caminho diferente: SaaS gerenciado, NPS de sessão do usuário final como sinal primário (em vez de métricas definidas pelo desenvolvedor) e inteligência cross-tenant que melhora o roteamento de cada cliente à medida que a plataforma cresce. Escolha com base em se você quer operar a infraestrutura e em qual fonte de feedback confia mais.

Princípios de design

Quatro regras que não quebramos.

São as restrições às quais seguramos o produto. Quando algo precisa ceder, não são elas.

01 / Qualidade primeiro

Nunca troque qualidade por custo sem seu aval.

Toda rota candidata passa por canário e barra de avaliação. Regressões voltam atrás em segundos, não em sprints.

quality = 0.95 → piso rígido
02 / Zero lock-in

Um flag desliga tudo.

Floopy é um drop-in baseURL para o SDK da OpenAI que você já usa. Sair é uma mudança de config de uma linha, não um projeto de migração.

baseURL: "https://api.openai.com/v1" → passthrough
03 / Mostre seu trabalho

Toda decisão é explicável.

Toda chamada roteada tem uma string de motivo. Toda promoção tem um diff. Todo rollback tem um trace.

span.floopy_reason = "haiku::cached"
04 / Pago por resultado

Se não economizou, não cobra.

Cobramos contra uma baseline medida, não um preço de tabela. O cliente vê a linha; nós também.

invoice = max(0, savings × 0.15)
Onde se encaixa

Inline, mas fora do caminho.

O Floopy é um control plane fino entre sua aplicação e os provedores que você já usa. Ele cuida de roteamento, cache e feedback — nada mais. Seus prompts, sua lógica e suas ferramentas continuam no seu código.

Overhead p50 3,1ms
Overhead p99 7,8ms
Streaming First-token preservado
Modo zero-retenção Disponível
FAQ

Perguntas frequentes

Respostas mais profundas sobre como o Floopy se relaciona com TensorZero, Portkey, Helicone e LiteLLM — e sobre feedback em nível de sessão vs por requisição.

O Floopy é uma alternativa ao Portkey?+
Sim, se você está avaliando o Portkey principalmente por roteamento, caching e observabilidade. O Floopy entrega essas camadas da mesma forma através de um endpoint compatível com OpenAI. A diferença é o que acontece depois da requisição: o Floopy usa a nota NPS que você envia para /v1/feedback para fechar um loop de roteamento — futuras requisições em sessões similares roteiam para modelos mais baratos quando a qualidade se mantém. O Portkey é um gateway; o Floopy é uma plataforma de otimização que inclui o gateway.
Qual a diferença entre o Floopy e o Helicone?+
O Helicone é excelente em observabilidade por requisição e feedback de desenvolvedor — cada chamada recebe seu próprio rating. O Floopy assume a posição oposta: uma nota NPS por sessão propaga para cada decisão de roteamento daquela sessão, porque a qualidade de um agente depende da trajetória inteira, não de respostas individuais. Se você quer tracking granular por requisição, o Helicone encaixa. Se você quer que o router aprenda com sinal de nível de sessão do usuário final que você já coleta, o Floopy encaixa.
Posso substituir o LiteLLM pelo Floopy?+
Sim para a camada de proxying. O LiteLLM é a melhor abstração da categoria sobre 100+ providers; o Floopy suporta 20 providers pela mesma interface compatível com OpenAI e adiciona caching gerenciado, firewall, rate limiting e roteamento guiado por feedback. Se você auto-hospeda o LiteLLM puramente para normalização de providers, o Floopy troca flexibilidade de self-hosting por um loop de otimização gerenciado que aprende com o NPS de sessão.
O Floopy é uma alternativa ao TensorZero?+
Mesmo espaço, escolhas de design diferentes. O TensorZero é open-source e self-hosted, otimizado para times que querem controle total de infraestrutura e estão confortáveis operando o próprio gateway. O Floopy é SaaS gerenciado com aprendizado cross-tenant — seu roteamento fica mais inteligente porque o sinal de todo cliente Floopy melhora o modelo compartilhado (Enterprise pode optar por sair). O Floopy também prioriza NPS de sessão do usuário final como fonte primária de feedback, enquanto o TensorZero é tipicamente conectado a métricas definidas pelo desenvolvedor e feedback humano. Ambos são válidos — a escolha depende de se você quer operar infraestrutura você mesmo e em qual sinal você confia mais.
Por que uma nota por sessão em vez de por resposta?+
Agentes modernos não entregam valor uma resposta por vez. Eles raciocinam, chamam tools, encadeiam passos. Uma única resposta ser "boa" ou "ruim" frequentemente depende de decisões tomadas três passos antes. O router do Floopy aprende com a trajetória inteira: quando você avalia uma sessão 9/10, cada decisão de roteamento daquela sessão recebe crédito; quando você avalia 3/10, cada decisão recebe sinal de aprendizado sobre o que fazer diferente. Scoring por requisição perde tudo isso. Por requisição está disponível como opção se você quiser, mas não é como a otimização central funciona.

Pronto para fechar o loop?

Comece no Free ou fale com a gente sobre o isolamento Enterprise e ranqueamento customizado de modelos.

Comece grátis Falar com Enterprise