Datasets

O que são Datasets

Datasets são coleções de pares input/output que servem como casos de teste para avaliar o desempenho de modelos LLM. Cada linha de um dataset contém uma requisição (input) e a resposta esperada (output), permitindo que você compare sistematicamente como diferentes modelos, prompts ou configurações respondem aos mesmos inputs.

Datasets são essenciais para:

Experimentos: Execute o mesmo conjunto de inputs contra múltiplas configurações e compare os resultados lado a lado.
Testes A/B: Valide que a distribuição de tráfego entre variantes produz resultados consistentes com os esperados.
Avaliação de Prompts: Teste diferentes versões de um prompt contra os mesmos dados para identificar qual versão produz melhores resultados.
Regressão: Garanta que mudanças na configuração não degradem a qualidade das respostas existentes.

Criando um Dataset

Para criar um dataset no dashboard:

Navegue até Datasets no menu lateral.
Clique em Criar Dataset.
Dê um nome descritivo ao dataset (por exemplo, “Perguntas de Suporte ao Cliente” ou “Classificação de Sentimento”).
Opcionalmente, adicione uma descrição para documentar o propósito do dataset.
Clique em Salvar.

O dataset será criado vazio, pronto para receber linhas.

Adicionando Linhas

Cada linha de um dataset representa um par de requisição e resposta. Para adicionar linhas:

Abra o dataset desejado.
Clique em Adicionar Linha.
No campo Requisição, insira o body JSON da requisição — no mesmo formato que você enviaria ao gateway. Isso inclui o modelo, mensagens e quaisquer parâmetros adicionais.
No campo Resposta, insira a resposta esperada. Este campo é usado como referência para comparação nos resultados de experimentos.
Clique em Salvar.

Você pode adicionar quantas linhas forem necessárias. Datasets maiores oferecem avaliações mais robustas, mas cada linha gera uma requisição ao provedor durante a execução de experimentos.

Exportação em JSONL

Datasets podem ser exportados no formato JSONL (JSON Lines), onde cada linha do arquivo contém um objeto JSON representando uma linha do dataset. Isso é útil para:

Backup dos dados de teste
Compartilhamento entre membros da equipe
Importação em outras ferramentas de avaliação
Versionamento dos datasets junto ao código

Para exportar, abra o dataset e clique em Exportar JSONL. O arquivo será baixado automaticamente.

Usando Datasets com Experimentos

Datasets são a base dos Experimentos no Floopy. Ao criar um experimento:

Selecione o dataset que deseja usar como fonte de inputs.
Configure as variantes do experimento — cada variante pode ter um modelo, prompt ou conjunto de parâmetros diferente.
Execute o experimento. O Floopy enviará cada input do dataset para todas as variantes configuradas.
Compare os resultados no painel de resultados, onde você pode ver as respostas de cada variante lado a lado com a resposta esperada do dataset.

Consulte a documentação de Experimentos para mais detalhes.

Usando Datasets com Testes A/B

Datasets também podem ser utilizados para validar a configuração de Testes A/B antes de expor tráfego real:

Crie um dataset representativo das requisições que seus usuários enviam.
Configure o teste A/B com as variantes desejadas.
Use o dataset para simular tráfego e verificar se a distribuição e os resultados estão conforme o esperado.

Consulte a documentação de Testes A/B para mais detalhes.