Groq

Visao Geral

A Groq oferece inferencia com latencia ultrabaixa usando hardware LPU customizado, hospedando modelos open-source como Llama e Mixtral. O Floopy faz proxy de requisicoes para a API compativel com OpenAI da Groq e expoe metricas adicionais de latencia atraves de headers de resposta.

Modelos Suportados

Model	Context Window	Notes
`llama-3.3-70b-versatile`	128K	Llama mais recente, uso geral
`llama-3.1-8b-instant`	128K	Modelo Llama mais rapido
`mixtral-8x7b-32768`	32K	Arquitetura mixture-of-experts
`gemma2-9b-it`	8K	Gemma open-source do Google

Configuracao

Acesse Settings > Providers no dashboard.
Clique em Add provider e selecione Groq.
Cole sua chave de API da Groq e clique em Save.

Uso

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.floopy.ai/v1",
  apiKey: process.env.FLOOPY_API_KEY,
});

const response = await client.chat.completions.create({
  model: "llama-3.3-70b-versatile",
  messages: [{ role: "user", content: "Explain quantum computing." }],
});

from openai import OpenAI

client = OpenAI(base_url="https://api.floopy.ai/v1", api_key=os.environ["FLOOPY_API_KEY"])

response = client.chat.completions.create(
    model="llama-3.3-70b-versatile",
    messages=[{"role": "user", "content": "Explain quantum computing."}],
)

curl https://api.floopy.ai/v1/chat/completions \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model": "llama-3.3-70b-versatile", "messages": [{"role": "user", "content": "Explain quantum computing."}]}'

Funcionalidades Especificas do Provider

Headers de latencia — As respostas da Groq incluem headers de temporização adicionais repassados pelo Floopy:
- Floopy-Queue-Time — tempo na fila de inferencia da Groq (ms)
- Floopy-Prompt-Time — tempo para processar o prompt (ms)
- Floopy-Completion-Time — tempo para gerar o completion (ms)
Latencia ultrabaixa — O hardware LPU da Groq entrega inferencia significativamente mais rapida que providers baseados em GPU, sendo ideal para aplicacoes em tempo real.

Fallback

Direcione para a OpenAI caso a Groq esteja indisponivel:

curl https://api.floopy.ai/v1/chat/completions \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -H "x-floopy-fallback-provider: openai" \
  -H "x-floopy-fallback-model: gpt-4o-mini" \
  -H "Content-Type: application/json" \
  -d '{"model": "llama-3.3-70b-versatile", "messages": [{"role": "user", "content": "Hello"}]}'