Como Escolher o Modelo de IA Certo (Dica: Pare de Escolher)
Pare de escolher modelo por endpoint. Deixe um roteador guiado por feedback escolher por prompt com NPS de sessão, auto-scores, ratings e benchmarks.
A pergunta “qual modelo eu devo usar?” é a pergunta errada.
A certa é: quem está escolhendo, e com que frequência a escolha é revisitada? Equipes que travam a escolha de modelo no código no momento do deploy acabam pagando de 5 a 10x mais do que precisam em prompts simples, ou derrubando qualidade nos complexos — e normalmente as duas coisas ao mesmo tempo em endpoints diferentes. Um único commit decide o trade-off pelos próximos seis meses, e ninguém volta para conferir.
Este guia cobre como o cenário está hoje — e então pivota para o movimento que importa: entregar a escolha de modelo a um roteador guiado por feedback que redecide por prompt, usando sinal real de qualidade do seu próprio tráfego.
O Cenário Atual (2026)
Uma visão simplificada dos principais modelos por nível de capacidade:
Nível 1 — Modelos Frontier (Mais Capazes, Mais Caros)
- GPT-4o — Ótimo generalist, forte em código e raciocínio
- Claude Sonnet 4 — Excelente em contexto longo e escrita sofisticada
- Gemini 2.5 Pro — Forte em tarefas multimodais e contexto grande
Nível 2 — Modelos Intermediários (Bom Equilíbrio)
- GPT-4o-mini — 90% da qualidade do GPT-4o por ~6% do custo
- Claude Haiku 4 — Rápido e barato, bom para maioria das tarefas em produção
- Gemini 2.0 Flash — Muito rápido, bom para apps de alta demanda
Nível 3 — Open Source / Especializados
- Llama 3.3 70B — Forte opção open-source, pode rodar localmente
- Mistral Large — Boa alternativa europeia
- DeepSeek V3 — Excelente em código, muito custo-efetivo
Saber os níveis é o básico. A pergunta interessante é o que você faz com eles.
Por Que Escolha Manual de Modelo Falha em Produção
Três coisas quebram a disciplina “escolher um modelo por tarefa” ao longo do tempo:
- Prompts mudam. O endpoint que você rotulou como “Q&A simples” no último trimestre agora recebe tickets de suporte de 12KB com tool calls embutidas. A escolha de modelo que cabia na distribuição de prompts no deploy não cabe mais.
- Provedores lançam modelos mais baratos mais rápido do que você consegue rebenchmarkar. GPT-4o-mini, Haiku 4, Flash 2.0 chegaram todos dentro do mesmo ciclo de release. Nenhum dos seus endpoints foi reavaliado contra eles, a menos que alguém tenha sido pago para fazer isso.
- Você perde o feedback. Um usuário dá um thumbs-down na sua UI e o evento vai para um PostHog que ninguém consulta. Não existe loop conectando o sinal ao que produziu o output ruim.
O sintoma é familiar: você usa o modelo mais caro por padrão “para garantir” e paga por isso em todo prompt trivial, enquanto os complexos ocasionalmente ainda falham.
A Reformulação: Escolher Modelo É Trabalho do Roteador
Uma AI Agent Optimization Platform inverte o ponto de controle. Em vez de escolher um modelo por endpoint no momento do deploy, você escolhe uma restrição de qualidade (ex.: “não derrubar mais do que 5% do NPS de sessão”) e deixa o roteador escolher o modelo por prompt, redecidindo conforme aprende quais escolhas realmente se sustentaram.
Isso funciona se — e somente se — o roteador tem feedback real para aprender. O Floopy combina quatro sinais:
| Fonte | O que captura | Volume |
|---|---|---|
Feedback de sessão (POST /v1/feedback) | Um NPS + usefulness por sessão, propagado para toda decisão de roteamento daquela sessão | Médio |
| Auto feedback | LLM-as-judge avaliando cada resposta em acurácia, completude, segurança, formato | Alto |
| Avaliação manual | Thumbs up/down de admin no dashboard | Baixo volume, alta confiança |
| Benchmarks públicos | MMLU, HumanEval, etc. — fallback de cold-start por modelo | Estático |
Pesos dinâmicos
Os sinais não têm peso igual. Os pesos mudam baseados em quanto de cada você tem:
- Dia 0 (sem tráfego ainda): 100% benchmark. O roteador usa scores públicos para escolher o primeiro candidato — melhor do que chutar.
- Depois de ~10 requisições (auto feedback chegando): 0.5 auto + 0.2 manual + 0.3 benchmark. Benchmarks ainda ancoram, mas seu próprio tráfego começa a mover a agulha.
- Depois de ~10 sessões (NPS de end-user chegando): 0.5 sessão + 0.3 auto + 0.1 manual + 0.1 benchmark. Seus usuários agora são o sinal dominante; benchmarks viram critério de desempate.
O modo de falha da maioria dos produtos de roteamento é usar só auto-scores e fingir que aquilo é “a voz do usuário”. NPS de sessão captura falhas de trajetória — o modelo escolheu a opção barata no turn 1, a conversa nunca se recuperou, o usuário avaliou a sessão inteira como 3 — que scoring por requisição perde completamente.
Propagação por requisição vs por sessão
Essa é a dobradiça. Sistemas de feedback por requisição avaliam só o turn específico que o usuário avaliou e esquecem o resto da conversa. Propagação de sessão pega o único NPS que você recebeu e aplica como evidência a toda decisão de roteamento daquela sessão. Uma escolha mais barata no turn 1 que silenciosamente afundou os turns 2–7 é reponderada na próxima sessão, não no dia seguinte.
O Que Você Ainda Escolhe Manualmente
O roteador não é um oráculo genérico. Você ainda escolhe:
- O modelo padrão (mais capaz). O roteador nunca vai subir para além dele, apenas substituir por candidatos mais baratos onde tem evidência.
- O piso de qualidade. Setting típico é 70% do score de qualidade do padrão — ajuste conforme quanta qualidade você está disposto a trocar por custo.
- A taxa de exploração. 90/10 é o padrão comum — 90% do tráfego vai para o melhor candidato conhecido, 10% testa alternativas para manter os dados atualizados.
- Cercas por nível. Geração de código pode ficar cercada ao Nível 1 apenas; classificação pode permitir Nível 2–3. O roteador escolhe dentro da cerca.
É aproximadamente a mesma quantidade de julgamento humano da abordagem antiga por endpoint — mas aplicada uma vez, em nível de política, em vez de redebatida toda vez que um modelo novo é lançado.
Estratégia Multi-Modelo, Recontextualizada
A heurística “escolha um modelo diferente por tarefa” ainda está direcionalmente certa. A diferença é se ela está congelada no código ou expressa como uma política de roteamento que evolui com os dados:
# Antigo (congelado no deploy)classify → gpt-4o-minigenerate → gpt-4osummarize → gpt-4o-mini
# Novo (política + feedback)classify → roteador escolhe Nível 2/3 mais barato acima de 70% de qualidadegenerate → roteador escolhe dentro do Nível 1, rotacionando com exploração 90/10summarize → roteador escolhe Nível 2/3 mais barato acima de 70% de qualidadeMesma intenção lógica. Ponto de operação diferente: o segundo se autocorrige quando o DeepSeek V3.1 é lançado ou quando o NPS de usuário começa a cair em resumos, sem precisar de PR.
Fallbacks de Provedor São Ortogonais
Resiliência é uma preocupação separada de otimização. O Floopy faz as duas:
Primário: GPT-4o → Fallback: Claude Sonnet → Fallback: Gemini ProPrimário: GPT-4o-mini → Fallback: Claude Haiku → Fallback: Gemini FlashFallback dispara em outage de provedor, rate limit ou timeout — não em qualidade. Mantenha essas cadeias explícitas mesmo usando roteamento guiado por feedback; o roteador escolhe o modelo do caminho feliz, o fallback cuida do caminho triste.
Onde a Parte Managed Importa
Rodar isso por conta própria significa manter um serviço de embeddings, um pipeline de scoring, um cache de benchmarks e tráfego suficiente por modelo por tenant para os pesos de auto-feedback se moverem. No dia zero você não tem nada disso.
O Floopy é managed, então o baseline de benchmark e o auto-scoring cross-tenant já estão aquecidos nos modelos pelos quais você roteia. Você herda o fallback de cold-start no dia um, e seu próprio tráfego (privado para você) assume conforme acumula. Alternativas self-hosted como TensorZero deixam o problema de cold-start no seu colo.
Principais Conclusões
- Pare de escolher um modelo por endpoint no deploy. Essa decisão apodrece mais rápido do que o código em volta dela.
- Escolha uma política em vez disso — modelo padrão, piso de qualidade, taxa de exploração, cercas por nível — e deixe o roteador operar a política.
- Exija propagação de feedback em nível de sessão. Scoring por requisição perde a maior parte do que dá errado em agentes multi-turn.
- Use pesos dinâmicos que deslizam de benchmarks (dia 0) para auto-scoring (~10 requisições) para NPS de sessão (~10 sessões). Pesar tudo igual no dia 1 te dá ruído.
- Mantenha fallbacks de provedor como preocupação separada. Otimização é qualidade vs custo; resiliência é uptime.
Quando estiver pronto para entregar a escolha de modelo a um roteador, aponte seu OpenAI SDK para api.floopy.ai e o loop de feedback começa a fechar sozinho.