Experimentos
Visao Geral
Os experimentos permitem avaliar sistematicamente diferentes modelos e prompts contra um dataset de teste. Em vez de adivinhar qual modelo ou prompt funciona melhor, voce pode rodar uma comparacao estruturada e obter resultados pontuados em multiplas dimensoes de qualidade.
Isso e especialmente util ao decidir entre provedores, testar uma nova versao de prompt ou validar que uma otimizacao de custo nao degradou a qualidade.
Criando um Experimento
Para configurar um experimento:
- Va em Experiments no dashboard e clique em Create Experiment.
- Selecione um dataset de teste — uma colecao de prompts de entrada com saidas esperadas opcionais.
- Escolha as variantes para comparar. Cada variante e uma combinacao de modelo, provedor e prompt.
- Selecione um preset de pontuacao ou personalize as dimensoes de pontuacao.
- Execute o experimento.
O Floopy envia cada entrada de teste para todas as variantes, coleta as respostas e as pontua automaticamente.
Dimensoes de Pontuacao
Cada resposta e pontuada em multiplas dimensoes:
- Relevancia — quao bem a resposta aborda a entrada.
- Coerencia — consistencia logica e legibilidade.
- Utilidade — se a resposta e acionavel e util.
- Seguranca — ausencia de conteudo prejudicial, enviesado ou inapropriado.
- Eficiencia de custo — uso de tokens e custo em relacao a qualidade da resposta.
As pontuacoes sao normalizadas em uma escala de 0-100 para facil comparacao entre variantes.
Presets de Pontuacao
Os presets configuram como as dimensoes sao ponderadas na pontuacao geral:
| Preset | Foco |
|---|---|
| Balanced | Peso igual em todas as dimensoes. Bom ponto de partida. |
| Quality First | Prioriza relevancia, coerencia e utilidade sobre custo. |
| Cost Optimized | Prioriza eficiencia de custo mantendo limites minimos de qualidade. |
| Safety Critical | Pesa fortemente a dimensao de seguranca. Use para aplicacoes regulamentadas ou sensiveis. |
Voce tambem pode definir pesos personalizados se nenhum dos presets atender suas necessidades.
Lendo os Resultados
A pagina de resultados mostra uma tabela comparativa com as pontuacoes de cada variante detalhadas por dimensao. Voce pode ordenar por qualquer dimensao ou pela pontuacao ponderada geral para encontrar o melhor desempenho.
Clique em uma variante para ver as respostas individuais ao lado das entradas de teste, para que voce possa revisar qualitativamente a saida alem das pontuacoes automatizadas.
Alertas de Regressao
Ative alertas de regressao para ser notificado quando a qualidade do prompt cair. O Floopy compara os resultados do experimento com um baseline e sinaliza quedas significativas em qualquer dimensao de pontuacao. Isso e util para detectar regressoes de qualidade apos edicoes de prompt ou atualizacoes de modelo.
Os alertas sao entregues via notificacoes do dashboard e podem ser configurados por experimento.
Requisitos de Plano
Os experimentos requerem um plano com o recurso has_experiments habilitado. Verifique seu plano atual em Settings > Billing.