Skip to content

Como Estimar e Controlar Seus Custos com APIs de IA

Aprenda a prever seus gastos com OpenAI, Anthropic ou Google AI antes que a conta surpreenda — com fórmulas, exemplos e dicas de monitoramento.

Floopy Team | | 6 min de leitura
cost-estimation api-costs monitoring guides

“Quanto isso vai custar?” é a primeira pergunta que toda equipe faz antes de colocar IA em produção — e a mais difícil de responder sem dados reais.

Este guia te dá as fórmulas, exemplos e estratégias de monitoramento para prever seus gastos com APIs de IA com confiança.

Entendendo a Precificação por Token

APIs de IA cobram por token — aproximadamente 4 caracteres ou ¾ de uma palavra em inglês (em português, a proporção pode variar). A maioria dos provedores cobra valores diferentes para tokens de entrada e saída:

ModeloCusto Entrada (por 1M tokens)Custo Saída (por 1M tokens)
GPT-4o$2,50$10,00
GPT-4o-mini$0,15$0,60
Claude Sonnet 4$3,00$15,00
Claude Haiku 4$0,80$4,00
Gemini 2.5 Pro$1,25$10,00
Gemini 2.0 Flash$0,10$0,40

A Fórmula de Custo

Custo por requisição = (tokens_entrada × preço_entrada) + (tokens_saída × preço_saída)
Custo mensal = custo_por_requisição × requisições_por_dia × 30

Exemplo: Chatbot de Suporte ao Cliente

Vamos estimar custos para um chatbot com 10.000 conversas/dia:

  • System prompt: ~500 tokens
  • Mensagem média do usuário: ~50 tokens
  • Contexto médio da conversa: ~800 tokens (histórico)
  • Resposta média: ~200 tokens

Entrada por requisição: 500 + 50 + 800 = 1.350 tokens Saída por requisição: 200 tokens

Com GPT-4o:

  • Entrada: 1.350 × $2,50/1M = $0,003375
  • Saída: 200 × $10,00/1M = $0,002
  • Por requisição: $0,005375
  • Mensal: $0,005375 × 10.000 × 30 = $1.612/mês

Com GPT-4o-mini:

  • Entrada: 1.350 × $0,15/1M = $0,000203
  • Saída: 200 × $0,60/1M = $0,000120
  • Por requisição: $0,000323
  • Mensal: $0,000323 × 10.000 × 30 = $97/mês

Mesmo chatbot. Mesma qualidade para a maioria das perguntas de suporte. $1.612 vs $97.

Exemplo: Assistente de Código com IA

Um assistente de código processando 5.000 requisições/dia:

  • System prompt: ~2.000 tokens (instruções detalhadas)
  • Contexto de código: ~3.000 tokens (conteúdo de arquivos, erros)
  • Mensagem do usuário: ~100 tokens
  • Código gerado: ~500 tokens

Com GPT-4o:

  • Entrada: 5.100 × $2,50/1M = $0,01275
  • Saída: 500 × $10,00/1M = $0,005
  • Por requisição: $0,01775
  • Mensal: $0,01775 × 5.000 × 30 = $2.663/mês

Os Custos Escondidos

Sua conta real será maior do que a fórmula sugere por causa de:

1. Retries

Requisições que falham (timeouts, rate limits, erros) precisam de retry. Orce 5-15% de requisições extras.

2. Histórico de Conversa

Cada mensagem em uma conversa multi-turno reenvia todo o histórico. Uma conversa de 10 mensagens significa que a mensagem #10 inclui todas as 9 mensagens anteriores como tokens de entrada.

3. Overhead do System Prompt

Seu system prompt é enviado com cada requisição. Um system prompt de 1.000 tokens com 10.000 requisições/dia = 10M tokens de entrada só para o system prompt.

4. Desenvolvimento e Testes

Ambientes de dev, testes, testes de prompt no CI/CD — tudo isso soma. Um time de 5 devs testando prompts manualmente pode facilmente gerar 20-30% do volume de produção.

Configurando Controles de Custo

Passo 1: Configure Alertas de Orçamento

Antes de ir para produção, configure alertas em:

  • 50% do orçamento mensal — conscientização
  • 75% do orçamento mensal — investigar se a tendência está alta
  • 90% do orçamento mensal — ação necessária
  • 100% do orçamento mensal — parada total ou modo degradado

Passo 2: Implemente Limites Por Usuário

Evite que um único usuário ou API key consuma uma parcela desproporcional:

// Exemplo: 100 requisições por minuto por usuário
const rateLimiter = {
window: '1m',
maxRequests: 100,
keyBy: 'userId'
};

Passo 3: Rastreie Custo Por Feature

Não rastreie só o gasto total. Quebre por:

  • Feature/endpoint — Quais features custam mais?
  • Segmento de usuário — Usuários do plano gratuito estão custando mais do que deveriam?
  • Modelo — Você está usando modelos caros para tarefas simples sem querer?

Dashboard de Monitoramento de Custos

No mínimo, acompanhe estas métricas diariamente:

MétricaPor Que Importa
Custo total (diário/semanal/mensal)Visão de tendência
Custo por requisição (p50, p95)Detectar outliers caros
Tokens por requisição (entrada/saída)Identificar prompts inchados
Requisições por modeloVerificar roteamento de modelos
Taxa de cache hitMedir eficácia da otimização
Custo por usuárioIdentificar abuso ou ineficiência

Usando um AI Gateway para Controle de Custos

Construir tudo isso — monitoramento, rate limiting, alertas, roteamento de modelos — do zero demanda tempo significativo de engenharia.

Um AI gateway como o Floopy te dá tudo isso pronto:

  • Dashboard de custos em tempo real com breakdown por requisição, usuário e modelo
  • Alertas de orçamento e limites rígidos configuráveis por API key
  • Log automático de custos no ClickHouse para análise histórica
  • Smart Cost Routing que automaticamente escolhe modelos mais baratos para tarefas simples

A estimativa com que você realmente deveria se importar. Uma estimativa estática por token assume que a escolha de modelo é fixa. Em produção, o modelo viável mais barato por prompt muda com o tempo conforme prompts, mix de tráfego e barras de qualidade mudam. O roteamento guiado por feedback do Floopy mantém essa estimativa honesta propagando uma nota NPS por sessão para cada decisão de roteamento daquela sessão e combinando com LLM-as-judge, avaliações de admin e benchmarks públicos — então o corte de “viável mais barato” é reajustado continuamente em vez de congelado no momento da configuração. Passo a passo: Smart Cost Routing e propagação de sessão.

Você tem visibilidade de para onde seu dinheiro está indo desde o primeiro dia.

Tabela Rápida de Estimativa de Custos

Tipo de AplicaçãoVolume TípicoCusto Mensal Estimado (GPT-4o-mini)
Chatbot interno1K req/dia$10-30
Bot de suporte10K req/dia$100-300
Geração de conteúdo5K req/dia$50-200
Assistente de código5K req/dia$150-500
Aplicação RAG10K req/dia$200-600
API alto volume100K req/dia$1.000-5.000

Estas são estimativas usando GPT-4o-mini. Multiplique por 15-20x para equivalentes GPT-4o.

Principais Conclusões

  1. Faça as contas antes de ir para produção — use a fórmula de custo com os tamanhos reais dos seus prompts
  2. Considere custos escondidos — retries, histórico de conversa, overhead do system prompt
  3. Configure controles de orçamento no dia um — não espere uma conta surpresa
  4. Rastreie custo por feature e por usuário — agregados escondem os problemas reais
  5. Comece com o modelo viável mais barato — suba de nível só onde a qualidade exigir