Smart Cost Routing: Reduza Custos com IA em até 60%
O Smart Cost Routing escolhe modelos mais baratos para prompts simples, protegido pelo loop de feedback por sessão do Floopy. Economia típica de 40-60%.
Nem todo prompt precisa do GPT-4o.
Um “quanto é 2+2?” não precisa do mesmo modelo que “escreva um whitepaper sobre sistemas distribuídos.” Ainda assim, a maioria das equipes envia todas as requisições para o modelo mais caro, pagando preços premium por tarefas triviais.
Hoje estamos lançando o Smart Cost Routing, uma funcionalidade que detecta automaticamente a complexidade do prompt e redireciona requisições simples para modelos mais baratos.
O Smart Cost Routing é a alavanca mais visível dentro do loop de roteamento orientado por feedback do Floopy. O modelo de custo escolhe um candidato mais barato; as quatro fontes de feedback do Floopy — NPS de sessão, LLM-as-judge (automático), avaliações manuais e benchmarks públicos — decidem se a escolha funcionou. Uma nota por sessão é propagada para cada decisão de roteamento daquela sessão, então uma escolha “mais barata mas pior” perde peso em toda a conversa que ela degradou, não só no turno que tivemos sorte de registrar.
O Problema
Equipes que usam IA em produção normalmente configuram um único modelo por endpoint. Seja quando o usuário pergunta “traduza hello para português” ou “depure este código async complexo em Rust”, o mesmo modelo caro lida com ambos.
Nossos dados mostram que 40-60% dos prompts em produção são simples — perguntas curtas, traduções, resumos, classificações. Estes podem ser processados por modelos que custam 5-10x menos.
Como o Smart Cost Routing Funciona
Passo 1: Classificar Complexidade
Cada prompt recebido é instantaneamente classificado em três níveis:
- Simples (score 0-0.3): Prompts curtos, turno único, sem código, sem tools
- Moderado (score 0.3-0.7): Conversas multi-turno, algum código, saída estruturada
- Complexo (score 0.7-1.0): System prompts longos, geração de código, uso de tools
A classificação usa heurísticas (zero latência) aprimoradas por correspondência de similaridade histórica.
Passo 2: Selecionar o Modelo Viável Mais Barato
Para prompts simples e moderados, o sistema escolhe o modelo mais barato que historicamente manteve a qualidade:
- 90% das vezes (exploitation): Usa o modelo com a melhor pontuação de desempenho
- 10% das vezes (exploration): Testa modelos menos explorados para coletar dados
Passo 3: Garantias de Segurança em Nível de Sessão
- Prompts complexos sempre usam seu modelo padrão
- O sistema nunca escolhe um modelo mais caro
- Você define o limite mínimo de qualidade (padrão 70%)
- Cada escolha de modelo mais barato é pontuada automaticamente pelo LLM-as-judge em quatro dimensões (precisão, completude, segurança, aderência de formato) e amarrada ao NPS da sessão quando ele chega; se a escolha mais barata derrubou a qualidade da sessão, o router repondera contra ela no próximo turno — não no dia seguinte
Essa é a parte que importa para quem está migrando de sistemas de feedback por request. Você não precisa avaliar cada resposta para proteger a qualidade. Uma nota de NPS por sessão cobre a trajetória completa — multi-turno, chamadas de ferramentas, retries — e o router aprende com esse sinal em cada decisão que tomou dentro da sessão.
Exemplos de Economia
| Cenário | Modelo Padrão | Smart Route | Economia |
|---|---|---|---|
| ”Quanto é 2+2?” | GPT-4o ($2.50/M) | GPT-4o-mini ($0.15/M) | 94% |
| “Traduza para espanhol” | Claude 3.5 Sonnet ($3/M) | Claude 3 Haiku ($0.25/M) | 92% |
| “Resuma este parágrafo” | Gemini 1.5 Pro ($1.25/M) | Gemini 2.0 Flash ($0.10/M) | 92% |
| Revisão de código complexa | GPT-4o | GPT-4o (sem mudança) | 0% |
Com 50% do tráfego sendo prompts simples, você pode ver uma redução de 40-60% nos custos totais.
Começando
- Vá até Routing no dashboard do Floopy
- Crie ou edite uma regra de roteamento
- Ative o Smart Cost Routing
- Defina sua taxa de exploração e qualidade mínima
- Acompanhe a economia acumulando no seu dashboard
Monitorando Sua Economia
Dois novos widgets no dashboard ajudam a acompanhar os resultados:
- Smart Cost Savings: Total economizado em dólares, tendência diária, detalhamento por modelo
- Smart Routing Accuracy: Comparação de qualidade mostrando exatamente quanta qualidade você mantém vs. quanto economiza — decomposta nas quatro fontes de feedback para você ver qual sinal está direcionando a decisão
Disponibilidade
O Smart Cost Routing está disponível no plano Pro ($199,90/mês) e no Enterprise.