Pular para o conteúdo

Experimentos

Visao Geral

Os experimentos permitem avaliar sistematicamente diferentes modelos e prompts contra um dataset de teste. Em vez de adivinhar qual modelo ou prompt funciona melhor, voce pode rodar uma comparacao estruturada e obter resultados pontuados em multiplas dimensoes de qualidade.

Isso e especialmente util ao decidir entre provedores, testar uma nova versao de prompt ou validar que uma otimizacao de custo nao degradou a qualidade.

Criando um Experimento

Para configurar um experimento:

  1. Va em Experiments no dashboard e clique em Create Experiment.
  2. Selecione um dataset de teste — uma colecao de prompts de entrada com saidas esperadas opcionais.
  3. Escolha as variantes para comparar. Cada variante e uma combinacao de modelo, provedor e prompt.
  4. Selecione um preset de pontuacao ou personalize as dimensoes de pontuacao.
  5. Execute o experimento.

O Floopy envia cada entrada de teste para todas as variantes, coleta as respostas e as pontua automaticamente.

Dimensoes de Pontuacao

Cada resposta e pontuada em multiplas dimensoes:

  • Relevancia — quao bem a resposta aborda a entrada.
  • Coerencia — consistencia logica e legibilidade.
  • Utilidade — se a resposta e acionavel e util.
  • Seguranca — ausencia de conteudo prejudicial, enviesado ou inapropriado.
  • Eficiencia de custo — uso de tokens e custo em relacao a qualidade da resposta.

As pontuacoes sao normalizadas em uma escala de 0-100 para facil comparacao entre variantes.

Presets de Pontuacao

Os presets configuram como as dimensoes sao ponderadas na pontuacao geral:

PresetFoco
BalancedPeso igual em todas as dimensoes. Bom ponto de partida.
Quality FirstPrioriza relevancia, coerencia e utilidade sobre custo.
Cost OptimizedPrioriza eficiencia de custo mantendo limites minimos de qualidade.
Safety CriticalPesa fortemente a dimensao de seguranca. Use para aplicacoes regulamentadas ou sensiveis.

Voce tambem pode definir pesos personalizados se nenhum dos presets atender suas necessidades.

Lendo os Resultados

A pagina de resultados mostra uma tabela comparativa com as pontuacoes de cada variante detalhadas por dimensao. Voce pode ordenar por qualquer dimensao ou pela pontuacao ponderada geral para encontrar o melhor desempenho.

Clique em uma variante para ver as respostas individuais ao lado das entradas de teste, para que voce possa revisar qualitativamente a saida alem das pontuacoes automatizadas.

Alertas de Regressao

Ative alertas de regressao para ser notificado quando a qualidade do prompt cair. O Floopy compara os resultados do experimento com um baseline e sinaliza quedas significativas em qualquer dimensao de pontuacao. Isso e util para detectar regressoes de qualidade apos edicoes de prompt ou atualizacoes de modelo.

Os alertas sao entregues via notificacoes do dashboard e podem ser configurados por experimento.

Requisitos de Plano

Os experimentos requerem um plano com o recurso has_experiments habilitado. Verifique seu plano atual em Settings > Billing.