Datasets
O que são Datasets
Datasets são coleções de pares input/output que servem como casos de teste para avaliar o desempenho de modelos LLM. Cada linha de um dataset contém uma requisição (input) e a resposta esperada (output), permitindo que você compare sistematicamente como diferentes modelos, prompts ou configurações respondem aos mesmos inputs.
Datasets são essenciais para:
- Experimentos: Execute o mesmo conjunto de inputs contra múltiplas configurações e compare os resultados lado a lado.
- Testes A/B: Valide que a distribuição de tráfego entre variantes produz resultados consistentes com os esperados.
- Avaliação de Prompts: Teste diferentes versões de um prompt contra os mesmos dados para identificar qual versão produz melhores resultados.
- Regressão: Garanta que mudanças na configuração não degradem a qualidade das respostas existentes.
Criando um Dataset
Para criar um dataset no dashboard:
- Navegue até Datasets no menu lateral.
- Clique em Criar Dataset.
- Dê um nome descritivo ao dataset (por exemplo, “Perguntas de Suporte ao Cliente” ou “Classificação de Sentimento”).
- Opcionalmente, adicione uma descrição para documentar o propósito do dataset.
- Clique em Salvar.
O dataset será criado vazio, pronto para receber linhas.
Adicionando Linhas
Cada linha de um dataset representa um par de requisição e resposta. Para adicionar linhas:
- Abra o dataset desejado.
- Clique em Adicionar Linha.
- No campo Requisição, insira o body JSON da requisição — no mesmo formato que você enviaria ao gateway. Isso inclui o modelo, mensagens e quaisquer parâmetros adicionais.
- No campo Resposta, insira a resposta esperada. Este campo é usado como referência para comparação nos resultados de experimentos.
- Clique em Salvar.
Você pode adicionar quantas linhas forem necessárias. Datasets maiores oferecem avaliações mais robustas, mas cada linha gera uma requisição ao provedor durante a execução de experimentos.
Exportação em JSONL
Datasets podem ser exportados no formato JSONL (JSON Lines), onde cada linha do arquivo contém um objeto JSON representando uma linha do dataset. Isso é útil para:
- Backup dos dados de teste
- Compartilhamento entre membros da equipe
- Importação em outras ferramentas de avaliação
- Versionamento dos datasets junto ao código
Para exportar, abra o dataset e clique em Exportar JSONL. O arquivo será baixado automaticamente.
Usando Datasets com Experimentos
Datasets são a base dos Experimentos no Floopy. Ao criar um experimento:
- Selecione o dataset que deseja usar como fonte de inputs.
- Configure as variantes do experimento — cada variante pode ter um modelo, prompt ou conjunto de parâmetros diferente.
- Execute o experimento. O Floopy enviará cada input do dataset para todas as variantes configuradas.
- Compare os resultados no painel de resultados, onde você pode ver as respostas de cada variante lado a lado com a resposta esperada do dataset.
Consulte a documentação de Experimentos para mais detalhes.
Usando Datasets com Testes A/B
Datasets também podem ser utilizados para validar a configuração de Testes A/B antes de expor tráfego real:
- Crie um dataset representativo das requisições que seus usuários enviam.
- Configure o teste A/B com as variantes desejadas.
- Use o dataset para simular tráfego e verificar se a distribuição e os resultados estão conforme o esperado.
Consulte a documentação de Testes A/B para mais detalhes.