Experimentos
Visao Geral
Seção intitulada “Visao Geral”Os experimentos permitem avaliar sistematicamente diferentes modelos e prompts contra um dataset de teste. Em vez de adivinhar qual modelo ou prompt funciona melhor, voce pode rodar uma comparacao estruturada e obter resultados pontuados em multiplas dimensoes de qualidade.
Isso e especialmente util ao decidir entre provedores, testar uma nova versao de prompt ou validar que uma otimizacao de custo nao degradou a qualidade.
Criando um Experimento
Seção intitulada “Criando um Experimento”Para configurar um experimento:
- Va em Experiments no dashboard e clique em Create Experiment.
- Selecione um dataset de teste — uma colecao de prompts de entrada com saidas esperadas opcionais.
- Escolha as variantes para comparar. Cada variante e uma combinacao de modelo, provedor e prompt.
- Selecione um preset de pontuacao ou personalize as dimensoes de pontuacao.
- Execute o experimento.
O Floopy envia cada entrada de teste para todas as variantes, coleta as respostas e as pontua automaticamente.
Dimensoes de Pontuacao
Seção intitulada “Dimensoes de Pontuacao”Cada resposta e pontuada em multiplas dimensoes:
- Relevancia — quao bem a resposta aborda a entrada.
- Coerencia — consistencia logica e legibilidade.
- Utilidade — se a resposta e acionavel e util.
- Seguranca — ausencia de conteudo prejudicial, enviesado ou inapropriado.
- Eficiencia de custo — uso de tokens e custo em relacao a qualidade da resposta.
As pontuacoes sao normalizadas em uma escala de 0-100 para facil comparacao entre variantes.
Presets de Pontuacao
Seção intitulada “Presets de Pontuacao”Os presets configuram como as dimensoes sao ponderadas na pontuacao geral:
| Preset | Foco |
|---|---|
| Balanced | Peso igual em todas as dimensoes. Bom ponto de partida. |
| Quality First | Prioriza relevancia, coerencia e utilidade sobre custo. |
| Cost Optimized | Prioriza eficiencia de custo mantendo limites minimos de qualidade. |
| Safety Critical | Pesa fortemente a dimensao de seguranca. Use para aplicacoes regulamentadas ou sensiveis. |
Voce tambem pode definir pesos personalizados se nenhum dos presets atender suas necessidades.
Lendo os Resultados
Seção intitulada “Lendo os Resultados”A pagina de resultados mostra uma tabela comparativa com as pontuacoes de cada variante detalhadas por dimensao. Voce pode ordenar por qualquer dimensao ou pela pontuacao ponderada geral para encontrar o melhor desempenho.
Clique em uma variante para ver as respostas individuais ao lado das entradas de teste, para que voce possa revisar qualitativamente a saida alem das pontuacoes automatizadas.
Alertas de Regressao
Seção intitulada “Alertas de Regressao”Ative alertas de regressao para ser notificado quando a qualidade do prompt cair. O Floopy compara os resultados do experimento com um baseline e sinaliza quedas significativas em qualquer dimensao de pontuacao. Isso e util para detectar regressoes de qualidade apos edicoes de prompt ou atualizacoes de modelo.
Os alertas sao entregues via notificacoes do dashboard e podem ser configurados por experimento.
A jornada no dashboard
Seção intitulada “A jornada no dashboard”O dashboard da Floopy em app.floopy.ai/routing/experiments e o caminho recomendado para rodar experimentos de roteamento ponta a ponta. Sao quatro telas.
Listagem (/routing/experiments)
Seção intitulada “Listagem (/routing/experiments)”Cai em uma tabela filtravel de experimentos com escopo na sua organizacao: tipo (canary ou shadow), status (draft, active, completed, rolled_back), (provider, model) baseline, (provider, model) candidato, timestamps de inicio/termino. A listagem dogfooda o endpoint GET /v1/experiments.
O botao “New experiment” leva para o fluxo de criacao.
Criacao (/routing/experiments/new)
Seção intitulada “Criacao (/routing/experiments/new)”Um formulario para criar um experimento:
- Tipo (
canaryoushadow). (provider, model)baseline — o lado de controle.(provider, model)candidate — o lado variante.- Para experimentos canary: percentual de trafego no candidato (
0..=100). - Para experimentos shadow: nada mais — shadow sempre roda em 100 % ao lado do trafego live, mas nunca serve o usuario.
Submeter o formulario chama POST /v1/experiments com o cabecalho de seguranca X-Floopy-Confirm: experiments definido incondicionalmente — o dashboard nunca permite que um usuario crie um experimento sem ele. O cabecalho e um portao deliberado e barato contra abuso acidental ou drive-by por chaves vazadas.
O dashboard tambem envia X-Floopy-Origin: api para fluxos normais de criacao e X-Floopy-Origin: zeus_onboarding para o setup de shadow do onboarding, mais o cabecalho X-Floopy-Actor-User-Id carregando o id do usuario da sessao (validado server-side). A allowlist fechada para X-Floopy-Origin e {"api", "zeus_onboarding", "sdk"}.
Detalhe (/routing/experiments/{id})
Seção intitulada “Detalhe (/routing/experiments/{id})”A pagina de detalhe do experimento busca server-side o GET /v1/experiments/{id}/results e renderiza:
- Cabecalho com tipo, status e timestamps de tempo de vida.
- Painel baseline: amostras, custo medio, qualidade composta, latencia p50.
- Painel candidate: mesmos campos.
- Bloco de delta: porcentagem de custo, qualidade absoluta, latencia em milissegundos.
Para experimentos ativos os paineis atualizam em cadencia de polling: a cada 20 segundos nos primeiros 10 minutos, a cada 60 segundos depois. O polling pausa completamente quando a aba do browser esta oculta (document.visibilityState === 'hidden'), entao uma aba em segundo plano nao consome budget de requisicao.
O endpoint tem cache Redis server-side de 30 segundos, entao polling em alta cadencia nunca bate na camada de analytics.
Dialogo de rollback
Seção intitulada “Dialogo de rollback”O botao “Roll back” da pagina de detalhe abre um dialogo de confirmacao. Confirmar chama POST /v1/experiments/{id}/rollback com o mesmo cabecalho X-Floopy-Confirm: experiments e os mesmos cabecalhos de origem/actor do fluxo de criacao. O rollback e em si um evento de auditoria e limpa o cache de validacao shadow para que uma rota recuperada rode quente.
Requisitos de Plano
Seção intitulada “Requisitos de Plano”Os experimentos e o novo endpoint de results estao disponiveis no plano Pro. Verifique seu plano atual em Settings > Billing.
Veja tambem
Seção intitulada “Veja tambem”- API de Experiments — list, create, rollback.
- GET /v1/experiments/{id}/results — resultados agregados baseline-vs-candidato.
- Feature de Constraints — como
require_shadow_before_liveemax_cost_drop_without_validationinteragem com experimentos shadow.