Como Estimar e Controlar Seus Custos com APIs de IA
Aprenda a prever seus gastos com OpenAI, Anthropic ou Google AI antes que a conta surpreenda — com fórmulas, exemplos e dicas de monitoramento.
“Quanto isso vai custar?” é a primeira pergunta que toda equipe faz antes de colocar IA em produção — e a mais difícil de responder sem dados reais.
Este guia te dá as fórmulas, exemplos e estratégias de monitoramento para prever seus gastos com APIs de IA com confiança.
Entendendo a Precificação por Token
APIs de IA cobram por token — aproximadamente 4 caracteres ou ¾ de uma palavra em inglês (em português, a proporção pode variar). A maioria dos provedores cobra valores diferentes para tokens de entrada e saída:
| Modelo | Custo Entrada (por 1M tokens) | Custo Saída (por 1M tokens) |
|---|---|---|
| GPT-4o | $2,50 | $10,00 |
| GPT-4o-mini | $0,15 | $0,60 |
| Claude Sonnet 4 | $3,00 | $15,00 |
| Claude Haiku 4 | $0,80 | $4,00 |
| Gemini 2.5 Pro | $1,25 | $10,00 |
| Gemini 2.0 Flash | $0,10 | $0,40 |
A Fórmula de Custo
Custo por requisição = (tokens_entrada × preço_entrada) + (tokens_saída × preço_saída)
Custo mensal = custo_por_requisição × requisições_por_dia × 30Exemplo: Chatbot de Suporte ao Cliente
Vamos estimar custos para um chatbot com 10.000 conversas/dia:
- System prompt: ~500 tokens
- Mensagem média do usuário: ~50 tokens
- Contexto médio da conversa: ~800 tokens (histórico)
- Resposta média: ~200 tokens
Entrada por requisição: 500 + 50 + 800 = 1.350 tokens Saída por requisição: 200 tokens
Com GPT-4o:
- Entrada: 1.350 × $2,50/1M = $0,003375
- Saída: 200 × $10,00/1M = $0,002
- Por requisição: $0,005375
- Mensal: $0,005375 × 10.000 × 30 = $1.612/mês
Com GPT-4o-mini:
- Entrada: 1.350 × $0,15/1M = $0,000203
- Saída: 200 × $0,60/1M = $0,000120
- Por requisição: $0,000323
- Mensal: $0,000323 × 10.000 × 30 = $97/mês
Mesmo chatbot. Mesma qualidade para a maioria das perguntas de suporte. $1.612 vs $97.
Exemplo: Assistente de Código com IA
Um assistente de código processando 5.000 requisições/dia:
- System prompt: ~2.000 tokens (instruções detalhadas)
- Contexto de código: ~3.000 tokens (conteúdo de arquivos, erros)
- Mensagem do usuário: ~100 tokens
- Código gerado: ~500 tokens
Com GPT-4o:
- Entrada: 5.100 × $2,50/1M = $0,01275
- Saída: 500 × $10,00/1M = $0,005
- Por requisição: $0,01775
- Mensal: $0,01775 × 5.000 × 30 = $2.663/mês
Os Custos Escondidos
Sua conta real será maior do que a fórmula sugere por causa de:
1. Retries
Requisições que falham (timeouts, rate limits, erros) precisam de retry. Orce 5-15% de requisições extras.
2. Histórico de Conversa
Cada mensagem em uma conversa multi-turno reenvia todo o histórico. Uma conversa de 10 mensagens significa que a mensagem #10 inclui todas as 9 mensagens anteriores como tokens de entrada.
3. Overhead do System Prompt
Seu system prompt é enviado com cada requisição. Um system prompt de 1.000 tokens com 10.000 requisições/dia = 10M tokens de entrada só para o system prompt.
4. Desenvolvimento e Testes
Ambientes de dev, testes, testes de prompt no CI/CD — tudo isso soma. Um time de 5 devs testando prompts manualmente pode facilmente gerar 20-30% do volume de produção.
Configurando Controles de Custo
Passo 1: Configure Alertas de Orçamento
Antes de ir para produção, configure alertas em:
- 50% do orçamento mensal — conscientização
- 75% do orçamento mensal — investigar se a tendência está alta
- 90% do orçamento mensal — ação necessária
- 100% do orçamento mensal — parada total ou modo degradado
Passo 2: Implemente Limites Por Usuário
Evite que um único usuário ou API key consuma uma parcela desproporcional:
// Exemplo: 100 requisições por minuto por usuárioconst rateLimiter = { window: '1m', maxRequests: 100, keyBy: 'userId'};Passo 3: Rastreie Custo Por Feature
Não rastreie só o gasto total. Quebre por:
- Feature/endpoint — Quais features custam mais?
- Segmento de usuário — Usuários do plano gratuito estão custando mais do que deveriam?
- Modelo — Você está usando modelos caros para tarefas simples sem querer?
Dashboard de Monitoramento de Custos
No mínimo, acompanhe estas métricas diariamente:
| Métrica | Por Que Importa |
|---|---|
| Custo total (diário/semanal/mensal) | Visão de tendência |
| Custo por requisição (p50, p95) | Detectar outliers caros |
| Tokens por requisição (entrada/saída) | Identificar prompts inchados |
| Requisições por modelo | Verificar roteamento de modelos |
| Taxa de cache hit | Medir eficácia da otimização |
| Custo por usuário | Identificar abuso ou ineficiência |
Usando um AI Gateway para Controle de Custos
Construir tudo isso — monitoramento, rate limiting, alertas, roteamento de modelos — do zero demanda tempo significativo de engenharia.
Um AI gateway como o Floopy te dá tudo isso pronto:
- Dashboard de custos em tempo real com breakdown por requisição, usuário e modelo
- Alertas de orçamento e limites rígidos configuráveis por API key
- Log automático de custos no ClickHouse para análise histórica
- Smart Cost Routing que automaticamente escolhe modelos mais baratos para tarefas simples
A estimativa com que você realmente deveria se importar. Uma estimativa estática por token assume que a escolha de modelo é fixa. Em produção, o modelo viável mais barato por prompt muda com o tempo conforme prompts, mix de tráfego e barras de qualidade mudam. O roteamento guiado por feedback do Floopy mantém essa estimativa honesta propagando uma nota NPS por sessão para cada decisão de roteamento daquela sessão e combinando com LLM-as-judge, avaliações de admin e benchmarks públicos — então o corte de “viável mais barato” é reajustado continuamente em vez de congelado no momento da configuração. Passo a passo: Smart Cost Routing e propagação de sessão.
Você tem visibilidade de para onde seu dinheiro está indo desde o primeiro dia.
Tabela Rápida de Estimativa de Custos
| Tipo de Aplicação | Volume Típico | Custo Mensal Estimado (GPT-4o-mini) |
|---|---|---|
| Chatbot interno | 1K req/dia | $10-30 |
| Bot de suporte | 10K req/dia | $100-300 |
| Geração de conteúdo | 5K req/dia | $50-200 |
| Assistente de código | 5K req/dia | $150-500 |
| Aplicação RAG | 10K req/dia | $200-600 |
| API alto volume | 100K req/dia | $1.000-5.000 |
Estas são estimativas usando GPT-4o-mini. Multiplique por 15-20x para equivalentes GPT-4o.
Principais Conclusões
- Faça as contas antes de ir para produção — use a fórmula de custo com os tamanhos reais dos seus prompts
- Considere custos escondidos — retries, histórico de conversa, overhead do system prompt
- Configure controles de orçamento no dia um — não espere uma conta surpresa
- Rastreie custo por feature e por usuário — agregados escondem os problemas reais
- Comece com o modelo viável mais barato — suba de nível só onde a qualidade exigir