Experimentos

Visao Geral

Os experimentos permitem avaliar sistematicamente diferentes modelos e prompts contra um dataset de teste. Em vez de adivinhar qual modelo ou prompt funciona melhor, voce pode rodar uma comparacao estruturada e obter resultados pontuados em multiplas dimensoes de qualidade.

Isso e especialmente util ao decidir entre provedores, testar uma nova versao de prompt ou validar que uma otimizacao de custo nao degradou a qualidade.

Criando um Experimento

Para configurar um experimento:

Va em Experiments no dashboard e clique em Create Experiment.
Selecione um dataset de teste — uma colecao de prompts de entrada com saidas esperadas opcionais.
Escolha as variantes para comparar. Cada variante e uma combinacao de modelo, provedor e prompt.
Selecione um preset de pontuacao ou personalize as dimensoes de pontuacao.
Execute o experimento.

O Floopy envia cada entrada de teste para todas as variantes, coleta as respostas e as pontua automaticamente.

Dimensoes de Pontuacao

Cada resposta e pontuada em multiplas dimensoes:

Relevancia — quao bem a resposta aborda a entrada.
Coerencia — consistencia logica e legibilidade.
Utilidade — se a resposta e acionavel e util.
Seguranca — ausencia de conteudo prejudicial, enviesado ou inapropriado.
Eficiencia de custo — uso de tokens e custo em relacao a qualidade da resposta.

As pontuacoes sao normalizadas em uma escala de 0-100 para facil comparacao entre variantes.

Presets de Pontuacao

Os presets configuram como as dimensoes sao ponderadas na pontuacao geral:

Preset	Foco
Balanced	Peso igual em todas as dimensoes. Bom ponto de partida.
Quality First	Prioriza relevancia, coerencia e utilidade sobre custo.
Cost Optimized	Prioriza eficiencia de custo mantendo limites minimos de qualidade.
Safety Critical	Pesa fortemente a dimensao de seguranca. Use para aplicacoes regulamentadas ou sensiveis.

Voce tambem pode definir pesos personalizados se nenhum dos presets atender suas necessidades.

Lendo os Resultados

A pagina de resultados mostra uma tabela comparativa com as pontuacoes de cada variante detalhadas por dimensao. Voce pode ordenar por qualquer dimensao ou pela pontuacao ponderada geral para encontrar o melhor desempenho.

Clique em uma variante para ver as respostas individuais ao lado das entradas de teste, para que voce possa revisar qualitativamente a saida alem das pontuacoes automatizadas.

Alertas de Regressao

Ative alertas de regressao para ser notificado quando a qualidade do prompt cair. O Floopy compara os resultados do experimento com um baseline e sinaliza quedas significativas em qualquer dimensao de pontuacao. Isso e util para detectar regressoes de qualidade apos edicoes de prompt ou atualizacoes de modelo.

Os alertas sao entregues via notificacoes do dashboard e podem ser configurados por experimento.

A jornada no dashboard

O dashboard da Floopy em app.floopy.ai/routing/experiments e o caminho recomendado para rodar experimentos de roteamento ponta a ponta. Sao quatro telas.

Listagem (`/routing/experiments`)

Cai em uma tabela filtravel de experimentos com escopo na sua organizacao: tipo (canary ou shadow), status (draft, active, completed, rolled_back), (provider, model) baseline, (provider, model) candidato, timestamps de inicio/termino. A listagem dogfooda o endpoint GET /v1/experiments.

O botao “New experiment” leva para o fluxo de criacao.

Criacao (`/routing/experiments/new`)

Um formulario para criar um experimento:

Tipo (canary ou shadow).
(provider, model) baseline — o lado de controle.
(provider, model) candidate — o lado variante.
Para experimentos canary: percentual de trafego no candidato (0..=100).
Para experimentos shadow: nada mais — shadow sempre roda em 100 % ao lado do trafego live, mas nunca serve o usuario.

Submeter o formulario chama POST /v1/experiments com o cabecalho de seguranca X-Floopy-Confirm: experiments definido incondicionalmente — o dashboard nunca permite que um usuario crie um experimento sem ele. O cabecalho e um portao deliberado e barato contra abuso acidental ou drive-by por chaves vazadas.

O dashboard tambem envia X-Floopy-Origin: api para fluxos normais de criacao e X-Floopy-Origin: zeus_onboarding para o setup de shadow do onboarding, mais o cabecalho X-Floopy-Actor-User-Id carregando o id do usuario da sessao (validado server-side). A allowlist fechada para X-Floopy-Origin e {"api", "zeus_onboarding", "sdk"}.

Detalhe (`/routing/experiments/{id}`)

A pagina de detalhe do experimento busca server-side o GET /v1/experiments/{id}/results e renderiza:

Cabecalho com tipo, status e timestamps de tempo de vida.
Painel baseline: amostras, custo medio, qualidade composta, latencia p50.
Painel candidate: mesmos campos.
Bloco de delta: porcentagem de custo, qualidade absoluta, latencia em milissegundos.

Para experimentos ativos os paineis atualizam em cadencia de polling: a cada 20 segundos nos primeiros 10 minutos, a cada 60 segundos depois. O polling pausa completamente quando a aba do browser esta oculta (document.visibilityState === 'hidden'), entao uma aba em segundo plano nao consome budget de requisicao.

O endpoint tem cache Redis server-side de 30 segundos, entao polling em alta cadencia nunca bate na camada de analytics.

Dialogo de rollback

O botao “Roll back” da pagina de detalhe abre um dialogo de confirmacao. Confirmar chama POST /v1/experiments/{id}/rollback com o mesmo cabecalho X-Floopy-Confirm: experiments e os mesmos cabecalhos de origem/actor do fluxo de criacao. O rollback e em si um evento de auditoria e limpa o cache de validacao shadow para que uma rota recuperada rode quente.

Requisitos de Plano

Os experimentos e o novo endpoint de results estao disponiveis no plano Pro. Verifique seu plano atual em Settings > Billing.

Veja tambem

API de Experiments — list, create, rollback.
GET /v1/experiments/{id}/results — resultados agregados baseline-vs-candidato.
Feature de Constraints — como require_shadow_before_live e max_cost_drop_without_validation interagem com experimentos shadow.