Como Estimar Custos de API de IA — Guia de Preços

“Quanto isso vai custar?” é a primeira pergunta que toda equipe faz antes de colocar IA em produção — e a mais difícil de responder sem dados reais.

Este guia te dá as fórmulas, exemplos e estratégias de monitoramento para prever seus gastos com APIs de IA com confiança.

Entendendo a Precificação por Token

APIs de IA cobram por token — aproximadamente 4 caracteres ou ¾ de uma palavra em inglês (em português, a proporção pode variar). A maioria dos provedores cobra valores diferentes para tokens de entrada e saída:

Modelo	Custo Entrada (por 1M tokens)	Custo Saída (por 1M tokens)
GPT-4o	$2,50	$10,00
GPT-4o-mini	$0,15	$0,60
Claude Sonnet 4	$3,00	$15,00
Claude Haiku 4	$0,80	$4,00
Gemini 2.5 Pro	$1,25	$10,00
Gemini 2.0 Flash	$0,10	$0,40

A Fórmula de Custo

Custo por requisição = (tokens_entrada × preço_entrada) + (tokens_saída × preço_saída)

Custo mensal = custo_por_requisição × requisições_por_dia × 30

Exemplo: Chatbot de Suporte ao Cliente

Vamos estimar custos para um chatbot com 10.000 conversas/dia:

System prompt: ~500 tokens
Mensagem média do usuário: ~50 tokens
Contexto médio da conversa: ~800 tokens (histórico)
Resposta média: ~200 tokens

Entrada por requisição: 500 + 50 + 800 = 1.350 tokens Saída por requisição: 200 tokens

Com GPT-4o:

Entrada: 1.350 × $2,50/1M = $0,003375
Saída: 200 × $10,00/1M = $0,002
Por requisição: $0,005375
Mensal: $0,005375 × 10.000 × 30 = $1.612/mês

Com GPT-4o-mini:

Entrada: 1.350 × $0,15/1M = $0,000203
Saída: 200 × $0,60/1M = $0,000120
Por requisição: $0,000323
Mensal: $0,000323 × 10.000 × 30 = $97/mês

Mesmo chatbot. Mesma qualidade para a maioria das perguntas de suporte. $1.612 vs $97.

Exemplo: Assistente de Código com IA

Um assistente de código processando 5.000 requisições/dia:

System prompt: ~2.000 tokens (instruções detalhadas)
Contexto de código: ~3.000 tokens (conteúdo de arquivos, erros)
Mensagem do usuário: ~100 tokens
Código gerado: ~500 tokens

Com GPT-4o:

Entrada: 5.100 × $2,50/1M = $0,01275
Saída: 500 × $10,00/1M = $0,005
Por requisição: $0,01775
Mensal: $0,01775 × 5.000 × 30 = $2.663/mês

Os Custos Escondidos

Sua conta real será maior do que a fórmula sugere por causa de:

1. Retries

Requisições que falham (timeouts, rate limits, erros) precisam de retry. Orce 5-15% de requisições extras.

2. Histórico de Conversa

Cada mensagem em uma conversa multi-turno reenvia todo o histórico. Uma conversa de 10 mensagens significa que a mensagem #10 inclui todas as 9 mensagens anteriores como tokens de entrada.

3. Overhead do System Prompt

Seu system prompt é enviado com cada requisição. Um system prompt de 1.000 tokens com 10.000 requisições/dia = 10M tokens de entrada só para o system prompt.

4. Desenvolvimento e Testes

Ambientes de dev, testes, testes de prompt no CI/CD — tudo isso soma. Um time de 5 devs testando prompts manualmente pode facilmente gerar 20-30% do volume de produção.

Configurando Controles de Custo

Passo 1: Configure Alertas de Orçamento

Antes de ir para produção, configure alertas em:

50% do orçamento mensal — conscientização
75% do orçamento mensal — investigar se a tendência está alta
90% do orçamento mensal — ação necessária
100% do orçamento mensal — parada total ou modo degradado

Passo 2: Implemente Limites Por Usuário

Evite que um único usuário ou API key consuma uma parcela desproporcional:

// Exemplo: 100 requisições por minuto por usuário
const rateLimiter = {
  window: '1m',
  maxRequests: 100,
  keyBy: 'userId'
};

Passo 3: Rastreie Custo Por Feature

Não rastreie só o gasto total. Quebre por:

Feature/endpoint — Quais features custam mais?
Segmento de usuário — Usuários do plano gratuito estão custando mais do que deveriam?
Modelo — Você está usando modelos caros para tarefas simples sem querer?

Dashboard de Monitoramento de Custos

No mínimo, acompanhe estas métricas diariamente:

Métrica	Por Que Importa
Custo total (diário/semanal/mensal)	Visão de tendência
Custo por requisição (p50, p95)	Detectar outliers caros
Tokens por requisição (entrada/saída)	Identificar prompts inchados
Requisições por modelo	Verificar roteamento de modelos
Taxa de cache hit	Medir eficácia da otimização
Custo por usuário	Identificar abuso ou ineficiência

Usando um AI Gateway para Controle de Custos

Construir tudo isso — monitoramento, rate limiting, alertas, roteamento de modelos — do zero demanda tempo significativo de engenharia.

Um AI gateway como o Floopy te dá tudo isso pronto:

Dashboard de custos em tempo real com breakdown por requisição, usuário e modelo
Alertas de orçamento e limites rígidos configuráveis por API key
Log automático de custos no ClickHouse para análise histórica
Smart Cost Routing que automaticamente escolhe modelos mais baratos para tarefas simples

A estimativa com que você realmente deveria se importar. Uma estimativa estática por token assume que a escolha de modelo é fixa. Em produção, o modelo viável mais barato por prompt muda com o tempo conforme prompts, mix de tráfego e barras de qualidade mudam. O roteamento guiado por feedback do Floopy mantém essa estimativa honesta propagando uma nota NPS por sessão para cada decisão de roteamento daquela sessão e combinando com LLM-as-judge, avaliações de admin e benchmarks públicos — então o corte de “viável mais barato” é reajustado continuamente em vez de congelado no momento da configuração. Passo a passo: Smart Cost Routing e propagação de sessão.

Você tem visibilidade de para onde seu dinheiro está indo desde o primeiro dia.

Tabela Rápida de Estimativa de Custos

Tipo de Aplicação	Volume Típico	Custo Mensal Estimado (GPT-4o-mini)
Chatbot interno	1K req/dia	$10-30
Bot de suporte	10K req/dia	$100-300
Geração de conteúdo	5K req/dia	$50-200
Assistente de código	5K req/dia	$150-500
Aplicação RAG	10K req/dia	$200-600
API alto volume	100K req/dia	$1.000-5.000

Estas são estimativas usando GPT-4o-mini. Multiplique por 15-20x para equivalentes GPT-4o.

Principais Conclusões

Faça as contas antes de ir para produção — use a fórmula de custo com os tamanhos reais dos seus prompts
Considere custos escondidos — retries, histórico de conversa, overhead do system prompt
Configure controles de orçamento no dia um — não espere uma conta surpresa
Rastreie custo por feature e por usuário — agregados escondem os problemas reais
Comece com o modelo viável mais barato — suba de nível só onde a qualidade exigir