Pular para o conteúdo
Entrar Começar

Experimentos

Os experimentos permitem avaliar sistematicamente diferentes modelos e prompts contra um dataset de teste. Em vez de adivinhar qual modelo ou prompt funciona melhor, voce pode rodar uma comparacao estruturada e obter resultados pontuados em multiplas dimensoes de qualidade.

Isso e especialmente util ao decidir entre provedores, testar uma nova versao de prompt ou validar que uma otimizacao de custo nao degradou a qualidade.

Para configurar um experimento:

  1. Va em Experiments no dashboard e clique em Create Experiment.
  2. Selecione um dataset de teste — uma colecao de prompts de entrada com saidas esperadas opcionais.
  3. Escolha as variantes para comparar. Cada variante e uma combinacao de modelo, provedor e prompt.
  4. Selecione um preset de pontuacao ou personalize as dimensoes de pontuacao.
  5. Execute o experimento.

O Floopy envia cada entrada de teste para todas as variantes, coleta as respostas e as pontua automaticamente.

Cada resposta e pontuada em multiplas dimensoes:

  • Relevancia — quao bem a resposta aborda a entrada.
  • Coerencia — consistencia logica e legibilidade.
  • Utilidade — se a resposta e acionavel e util.
  • Seguranca — ausencia de conteudo prejudicial, enviesado ou inapropriado.
  • Eficiencia de custo — uso de tokens e custo em relacao a qualidade da resposta.

As pontuacoes sao normalizadas em uma escala de 0-100 para facil comparacao entre variantes.

Os presets configuram como as dimensoes sao ponderadas na pontuacao geral:

PresetFoco
BalancedPeso igual em todas as dimensoes. Bom ponto de partida.
Quality FirstPrioriza relevancia, coerencia e utilidade sobre custo.
Cost OptimizedPrioriza eficiencia de custo mantendo limites minimos de qualidade.
Safety CriticalPesa fortemente a dimensao de seguranca. Use para aplicacoes regulamentadas ou sensiveis.

Voce tambem pode definir pesos personalizados se nenhum dos presets atender suas necessidades.

A pagina de resultados mostra uma tabela comparativa com as pontuacoes de cada variante detalhadas por dimensao. Voce pode ordenar por qualquer dimensao ou pela pontuacao ponderada geral para encontrar o melhor desempenho.

Clique em uma variante para ver as respostas individuais ao lado das entradas de teste, para que voce possa revisar qualitativamente a saida alem das pontuacoes automatizadas.

Ative alertas de regressao para ser notificado quando a qualidade do prompt cair. O Floopy compara os resultados do experimento com um baseline e sinaliza quedas significativas em qualquer dimensao de pontuacao. Isso e util para detectar regressoes de qualidade apos edicoes de prompt ou atualizacoes de modelo.

Os alertas sao entregues via notificacoes do dashboard e podem ser configurados por experimento.

O dashboard da Floopy em app.floopy.ai/routing/experiments e o caminho recomendado para rodar experimentos de roteamento ponta a ponta. Sao quatro telas.

Cai em uma tabela filtravel de experimentos com escopo na sua organizacao: tipo (canary ou shadow), status (draft, active, completed, rolled_back), (provider, model) baseline, (provider, model) candidato, timestamps de inicio/termino. A listagem dogfooda o endpoint GET /v1/experiments.

O botao “New experiment” leva para o fluxo de criacao.

Um formulario para criar um experimento:

  • Tipo (canary ou shadow).
  • (provider, model) baseline — o lado de controle.
  • (provider, model) candidate — o lado variante.
  • Para experimentos canary: percentual de trafego no candidato (0..=100).
  • Para experimentos shadow: nada mais — shadow sempre roda em 100 % ao lado do trafego live, mas nunca serve o usuario.

Submeter o formulario chama POST /v1/experiments com o cabecalho de seguranca X-Floopy-Confirm: experiments definido incondicionalmente — o dashboard nunca permite que um usuario crie um experimento sem ele. O cabecalho e um portao deliberado e barato contra abuso acidental ou drive-by por chaves vazadas.

O dashboard tambem envia X-Floopy-Origin: api para fluxos normais de criacao e X-Floopy-Origin: zeus_onboarding para o setup de shadow do onboarding, mais o cabecalho X-Floopy-Actor-User-Id carregando o id do usuario da sessao (validado server-side). A allowlist fechada para X-Floopy-Origin e {"api", "zeus_onboarding", "sdk"}.

A pagina de detalhe do experimento busca server-side o GET /v1/experiments/{id}/results e renderiza:

  • Cabecalho com tipo, status e timestamps de tempo de vida.
  • Painel baseline: amostras, custo medio, qualidade composta, latencia p50.
  • Painel candidate: mesmos campos.
  • Bloco de delta: porcentagem de custo, qualidade absoluta, latencia em milissegundos.

Para experimentos ativos os paineis atualizam em cadencia de polling: a cada 20 segundos nos primeiros 10 minutos, a cada 60 segundos depois. O polling pausa completamente quando a aba do browser esta oculta (document.visibilityState === 'hidden'), entao uma aba em segundo plano nao consome budget de requisicao.

O endpoint tem cache Redis server-side de 30 segundos, entao polling em alta cadencia nunca bate na camada de analytics.

O botao “Roll back” da pagina de detalhe abre um dialogo de confirmacao. Confirmar chama POST /v1/experiments/{id}/rollback com o mesmo cabecalho X-Floopy-Confirm: experiments e os mesmos cabecalhos de origem/actor do fluxo de criacao. O rollback e em si um evento de auditoria e limpa o cache de validacao shadow para que uma rota recuperada rode quente.

Os experimentos e o novo endpoint de results estao disponiveis no plano Pro. Verifique seu plano atual em Settings > Billing.