Toda rota candidata entra atrás de um canary e de uma régua de eval. Regressões voltam em segundos, não em sprints.
Criamos o Floopy porque nossa própria conta de IA assustou a gente.
O Floopy é a camada de infraestrutura entre o seu agente e os providers — para que o modelo mais barato capaz de fazer o trabalho o faça. Todas as vezes. Sem sacrificar o que os seus usuários percebem.
Rodávamos features de IA em produção e a conta foi de "item de linha" para "maior item de linha" em poucos meses. Tentamos o que todo mundo tenta: regras de roteamento escritas à mão, limites de tokens, cache agressivo, compressão de prompt. Funcionou, um pouco. Também quebrava constantemente — no momento em que um novo modelo saía, nossas regras ficavam desatualizadas. Quando um prompt mudava, o cache era envenenado. Quando relaxávamos qualquer coisa, a qualidade oscilava.
O padrão que queríamos não existia como produto: rotear cada chamada por uma política aprendida apoiada em feedback real de usuário, com promoção segura por canary e rollback rápido. Então construímos. Hoje o Floopy é um AI gateway compatível com OpenAI que times usam para mover tráfego entre modelos sem mover a régua de qualidade.
Acreditamos em três coisas, com convicção: otimização pertence ao caminho de requisição, não a um dashboard. Toda decisão de roteamento deve ser explicável para uma engenheira de plantão às 3h da manhã. E times só devem pagar por infraestrutura que, mensuravelmente, se pagou.
Quatro regras que não quebramos.
Essas são as restrições às quais o produto é fiel. Quando alguma coisa tem que ceder, não são essas.
O Floopy é uma base URL drop-in para o SDK da OpenAI que você já usa. Sair é uma mudança de uma linha — aponta a baseURL de volta para a OpenAI — não um projeto de migração.
Toda chamada roteada tem uma razão em string. Toda promoção tem um diff. Todo rollback tem um trace.
Baseline medido vs. custo pós-roteamento aparece sempre no seu dashboard. Se não mexermos na sua conta, você vai ver — e a gente também.
Pequenos por design.
Onze pessoas. Metade infra, metade ML, todas construindo. Contratamos devagar e com raridade — se você está lendo isso e soa como casa, escreva para a gente mesmo assim.
Ex-líder de infra na Parallax. Construiu o engine de roteamento original num fim de semana bem longo.
Ex-pesquisa aplicada da Anthropic. Passa a maior parte dos dias no código de convergência do bandit.
Ex-staff na Stripe. Cuida da superfície do SDK e se recusa a quebrá-la.
Ex-pesquisa Vertex. Escreveu o paper que virou base do harness de avaliação.
On-call quando os gráficos estão verdes; geralmente também quando estão vermelhos.
Puxou SOC 2 e ISO 27001. Antes na Cloudflare.
Cuida do design system e docs. Se algo parecer estranho, a culpa é dela — gentilmente.
Fechou o deal nº 1. E ainda fecha a maioria.
Uma história curta.
Dois anos em operação; cerca de um bilhão de chamadas roteadas nos últimos noventa dias.
Protótipo interno
Regras de roteamento saem de um cron job e viram um control plane de verdade. Paramos de quebrar o próprio produto.
Endpoint compatível com OpenAI
Primeiro api.floopy.ai/v1 público. Uma troca de base-URL e o roteamento está ativo — sem SDK novo, sem mexer nos prompts.
Rodada seed · US$ 8,4 M
Liderada pela Nimbus Capital, com anjos de Anthropic, Anyscale e Cloudflare.
Engine de roteamento v2.0
Contextual bandits em produção. Convergência mediana cai de 7 dias para 48 h.
≈ 900 times · ~1B calls/mês
Ainda pequeno. Ainda contratando com critério. Ainda lançando toda terça-feira.
Capital paciente, escolhido a dedo.
Quer trabalhar com a gente?
Somos um time pequeno construindo com cuidado. Mande um olá — as melhores conversas não começam em listagem.