Sobre

Criamos o Floopy porque nossa própria conta de IA assustou a gente.

O Floopy é a camada de infraestrutura entre o seu agente e os providers — para que o modelo mais barato capaz de fazer o trabalho o faça. Todas as vezes. Sem sacrificar o que os seus usuários percebem.

Rodávamos features de IA em produção e a conta foi de "item de linha" para "maior item de linha" em poucos meses. Tentamos o que todo mundo tenta: regras de roteamento escritas à mão, limites de tokens, cache agressivo, compressão de prompt. Funcionou, um pouco. Também quebrava constantemente — no momento em que um novo modelo saía, nossas regras ficavam desatualizadas. Quando um prompt mudava, o cache era envenenado. Quando relaxávamos qualquer coisa, a qualidade oscilava.

O padrão que queríamos não existia como produto: rotear cada chamada por uma política aprendida apoiada em feedback real de usuário, com promoção segura por canary e rollback rápido. Então construímos. Hoje o Floopy é um AI gateway compatível com OpenAI que times usam para mover tráfego entre modelos sem mover a régua de qualidade.

Acreditamos em três coisas, com convicção: otimização pertence ao caminho de requisição, não a um dashboard. Toda decisão de roteamento deve ser explicável para uma engenheira de plantão às 3h da manhã. E times só devem pagar por infraestrutura que, mensuravelmente, se pagou.

Princípios de design

Quatro regras que não quebramos.

Essas são as restrições às quais o produto é fiel. Quando alguma coisa tem que ceder, não são essas.

01 / Qualidade primeiro

Nunca troque qualidade por custo sem seu aval.

Toda rota candidata entra atrás de um canary e de uma régua de eval. Regressões voltam em segundos, não em sprints.

quality = 0.95 → piso duro

02 / Zero lock-in

Uma flag desliga a gente.

O Floopy é uma base URL drop-in para o SDK da OpenAI que você já usa. Sair é uma mudança de uma linha — aponta a baseURL de volta para a OpenAI — não um projeto de migração.

baseURL: "https://api.openai.com/v1" → passthrough

03 / Mostre o raciocínio

Toda decisão é explicável.

Toda chamada roteada tem uma razão em string. Toda promoção tem um diff. Todo rollback tem um trace.

span.floopy_reason = "haiku::cached"

04 / Ganhe o lugar

Se não economizou, não afirme.

Baseline medido vs. custo pós-roteamento aparece sempre no seu dashboard. Se não mexermos na sua conta, você vai ver — e a gente também.

dashboard.savings = baseline − routed

Time

Pequenos por design.

Onze pessoas. Metade infra, metade ML, todas construindo. Contratamos devagar e com raridade — se você está lendo isso e soa como casa, escreva para a gente mesmo assim.

Sana Nakamura

CEO & Co-fundadora

Ex-líder de infra na Parallax. Construiu o engine de roteamento original num fim de semana bem longo.

Dmitri Olszewski

CTO & Co-fundador

Ex-pesquisa aplicada da Anthropic. Passa a maior parte dos dias no código de convergência do bandit.

Kofi Asante

Chefe de Engenharia

Ex-staff na Stripe. Cuida da superfície do SDK e se recusa a quebrá-la.

Lia Ramírez

Chefe de ML

Ex-pesquisa Vertex. Escreveu o paper que virou base do harness de avaliação.

Theo Okafor

Infra

On-call quando os gráficos estão verdes; geralmente também quando estão vermelhos.

Priya Venkatesan

Segurança

Puxou SOC 2 e ISO 27001. Antes na Cloudflare.

Amelia Jin

Design

Cuida do design system e docs. Se algo parecer estranho, a culpa é dela — gentilmente.

Rafe Morozov

GTM

Fechou o deal nº 1. E ainda fecha a maioria.

Marcos

Uma história curta.

Dois anos em operação; cerca de um bilhão de chamadas roteadas nos últimos noventa dias.

Out 2024

Protótipo interno

Regras de roteamento saem de um cron job e viram um control plane de verdade. Paramos de quebrar o próprio produto.

Mar 2025

Endpoint compatível com OpenAI

Primeiro api.floopy.ai/v1 público. Uma troca de base-URL e o roteamento está ativo — sem SDK novo, sem mexer nos prompts.

Jul 2025

Rodada seed · US$ 8,4 M

Liderada pela Nimbus Capital, com anjos de Anthropic, Anyscale e Cloudflare.

Jan 2026

Engine de roteamento v2.0

Contextual bandits em produção. Convergência mediana cai de 7 dias para 48 h.

Hoje

≈ 900 times · ~1B calls/mês

Ainda pequeno. Ainda contratando com critério. Ainda lançando toda terça-feira.

Investidores

Capital paciente, escolhido a dedo.

NimbusLead · seed

AnvilParticipante

QuorumParticipante

Index/XAnjos

CalderaAnjos

Independentes31 operadores

Quer trabalhar com a gente?

Somos um time pequeno construindo com cuidado. Mande um olá — as melhores conversas não começam em listagem.

Mande um olá Ver benchmarks