Skip to content

Smart Cost Routing: Reduza Custos com IA em até 60%

O Smart Cost Routing escolhe modelos mais baratos para prompts simples, protegido pelo loop de feedback por sessão do Floopy. Economia típica de 40-60%.

Floopy Team | | 4 min de leitura
cost-optimization routing feedback-driven-routing agent-optimization product

Nem todo prompt precisa do GPT-4o.

Um “quanto é 2+2?” não precisa do mesmo modelo que “escreva um whitepaper sobre sistemas distribuídos.” Ainda assim, a maioria das equipes envia todas as requisições para o modelo mais caro, pagando preços premium por tarefas triviais.

Hoje estamos lançando o Smart Cost Routing, uma funcionalidade que detecta automaticamente a complexidade do prompt e redireciona requisições simples para modelos mais baratos.

O Smart Cost Routing é a alavanca mais visível dentro do loop de roteamento orientado por feedback do Floopy. O modelo de custo escolhe um candidato mais barato; as quatro fontes de feedback do Floopy — NPS de sessão, LLM-as-judge (automático), avaliações manuais e benchmarks públicos — decidem se a escolha funcionou. Uma nota por sessão é propagada para cada decisão de roteamento daquela sessão, então uma escolha “mais barata mas pior” perde peso em toda a conversa que ela degradou, não só no turno que tivemos sorte de registrar.

O Problema

Equipes que usam IA em produção normalmente configuram um único modelo por endpoint. Seja quando o usuário pergunta “traduza hello para português” ou “depure este código async complexo em Rust”, o mesmo modelo caro lida com ambos.

Nossos dados mostram que 40-60% dos prompts em produção são simples — perguntas curtas, traduções, resumos, classificações. Estes podem ser processados por modelos que custam 5-10x menos.

Como o Smart Cost Routing Funciona

Passo 1: Classificar Complexidade

Cada prompt recebido é instantaneamente classificado em três níveis:

  • Simples (score 0-0.3): Prompts curtos, turno único, sem código, sem tools
  • Moderado (score 0.3-0.7): Conversas multi-turno, algum código, saída estruturada
  • Complexo (score 0.7-1.0): System prompts longos, geração de código, uso de tools

A classificação usa heurísticas (zero latência) aprimoradas por correspondência de similaridade histórica.

Passo 2: Selecionar o Modelo Viável Mais Barato

Para prompts simples e moderados, o sistema escolhe o modelo mais barato que historicamente manteve a qualidade:

  • 90% das vezes (exploitation): Usa o modelo com a melhor pontuação de desempenho
  • 10% das vezes (exploration): Testa modelos menos explorados para coletar dados

Passo 3: Garantias de Segurança em Nível de Sessão

  • Prompts complexos sempre usam seu modelo padrão
  • O sistema nunca escolhe um modelo mais caro
  • Você define o limite mínimo de qualidade (padrão 70%)
  • Cada escolha de modelo mais barato é pontuada automaticamente pelo LLM-as-judge em quatro dimensões (precisão, completude, segurança, aderência de formato) e amarrada ao NPS da sessão quando ele chega; se a escolha mais barata derrubou a qualidade da sessão, o router repondera contra ela no próximo turno — não no dia seguinte

Essa é a parte que importa para quem está migrando de sistemas de feedback por request. Você não precisa avaliar cada resposta para proteger a qualidade. Uma nota de NPS por sessão cobre a trajetória completa — multi-turno, chamadas de ferramentas, retries — e o router aprende com esse sinal em cada decisão que tomou dentro da sessão.

Exemplos de Economia

CenárioModelo PadrãoSmart RouteEconomia
”Quanto é 2+2?”GPT-4o ($2.50/M)GPT-4o-mini ($0.15/M)94%
“Traduza para espanhol”Claude 3.5 Sonnet ($3/M)Claude 3 Haiku ($0.25/M)92%
“Resuma este parágrafo”Gemini 1.5 Pro ($1.25/M)Gemini 2.0 Flash ($0.10/M)92%
Revisão de código complexaGPT-4oGPT-4o (sem mudança)0%

Com 50% do tráfego sendo prompts simples, você pode ver uma redução de 40-60% nos custos totais.

Começando

  1. Vá até Routing no dashboard do Floopy
  2. Crie ou edite uma regra de roteamento
  3. Ative o Smart Cost Routing
  4. Defina sua taxa de exploração e qualidade mínima
  5. Acompanhe a economia acumulando no seu dashboard

Monitorando Sua Economia

Dois novos widgets no dashboard ajudam a acompanhar os resultados:

  • Smart Cost Savings: Total economizado em dólares, tendência diária, detalhamento por modelo
  • Smart Routing Accuracy: Comparação de qualidade mostrando exatamente quanta qualidade você mantém vs. quanto economiza — decomposta nas quatro fontes de feedback para você ver qual sinal está direcionando a decisão

Disponibilidade

O Smart Cost Routing está disponível no plano Pro ($199,90/mês) e no Enterprise.