Groq
Visao Geral
A Groq oferece inferencia com latencia ultrabaixa usando hardware LPU customizado, hospedando modelos open-source como Llama e Mixtral. O Floopy faz proxy de requisicoes para a API compativel com OpenAI da Groq e expoe metricas adicionais de latencia atraves de headers de resposta.
Modelos Suportados
| Model | Context Window | Notes |
|---|---|---|
llama-3.3-70b-versatile | 128K | Llama mais recente, uso geral |
llama-3.1-8b-instant | 128K | Modelo Llama mais rapido |
mixtral-8x7b-32768 | 32K | Arquitetura mixture-of-experts |
gemma2-9b-it | 8K | Gemma open-source do Google |
Configuracao
- Acesse Settings > Providers no dashboard.
- Clique em Add provider e selecione Groq.
- Cole sua chave de API da Groq e clique em Save.
Uso
import OpenAI from "openai";
const client = new OpenAI({ baseURL: "https://api.floopy.ai/v1", apiKey: process.env.FLOOPY_API_KEY,});
const response = await client.chat.completions.create({ model: "llama-3.3-70b-versatile", messages: [{ role: "user", content: "Explain quantum computing." }],});from openai import OpenAI
client = OpenAI(base_url="https://api.floopy.ai/v1", api_key=os.environ["FLOOPY_API_KEY"])
response = client.chat.completions.create( model="llama-3.3-70b-versatile", messages=[{"role": "user", "content": "Explain quantum computing."}],)curl https://api.floopy.ai/v1/chat/completions \ -H "Authorization: Bearer $FLOOPY_API_KEY" \ -H "Content-Type: application/json" \ -d '{"model": "llama-3.3-70b-versatile", "messages": [{"role": "user", "content": "Explain quantum computing."}]}'Funcionalidades Especificas do Provider
- Headers de latencia — As respostas da Groq incluem headers de temporização adicionais repassados pelo Floopy:
Floopy-Queue-Time— tempo na fila de inferencia da Groq (ms)Floopy-Prompt-Time— tempo para processar o prompt (ms)Floopy-Completion-Time— tempo para gerar o completion (ms)
- Latencia ultrabaixa — O hardware LPU da Groq entrega inferencia significativamente mais rapida que providers baseados em GPU, sendo ideal para aplicacoes em tempo real.
Fallback
Direcione para a OpenAI caso a Groq esteja indisponivel:
curl https://api.floopy.ai/v1/chat/completions \ -H "Authorization: Bearer $FLOOPY_API_KEY" \ -H "x-floopy-fallback-provider: openai" \ -H "x-floopy-fallback-model: gpt-4o-mini" \ -H "Content-Type: application/json" \ -d '{"model": "llama-3.3-70b-versatile", "messages": [{"role": "user", "content": "Hello"}]}'