Cerebras
Visao Geral
A Cerebras oferece inferencia ultra-rapida usando hardware customizado wafer-scale engine (WSE), entregando algumas das menores latencias disponiveis para modelos open-source. O Floopy encaminha requisicoes para a API compativel com OpenAI da Cerebras.
Modelos Suportados
| Modelo | Janela de Contexto | Notas |
|---|---|---|
llama-3.3-70b | 128K | Llama 3.3 70B no WSE |
llama-3.1-8b | 128K | Llama 3.1 8B no WSE |
qwen-3-32b | 128K | Qwen 3 32B no WSE |
Configuracao
- Va para Settings > Providers no dashboard.
- Clique em Add provider e selecione Cerebras.
- Cole sua API key da Cerebras e clique em Save.
Uso
import OpenAI from "openai";
const client = new OpenAI({ baseURL: "https://api.floopy.ai/v1", apiKey: process.env.FLOOPY_API_KEY,});
const response = await client.chat.completions.create({ model: "llama-3.3-70b", messages: [{ role: "user", content: "Explique computacao quantica." }],});from openai import OpenAI
client = OpenAI(base_url="https://api.floopy.ai/v1", api_key=os.environ["FLOOPY_API_KEY"])
response = client.chat.completions.create( model="llama-3.3-70b", messages=[{"role": "user", "content": "Explique computacao quantica."}],)curl https://api.floopy.ai/v1/chat/completions \ -H "Authorization: Bearer $FLOOPY_API_KEY" \ -H "Content-Type: application/json" \ -d '{"model": "llama-3.3-70b", "messages": [{"role": "user", "content": "Explique computacao quantica."}]}'Recursos Especificos
- Ultra-baixa latencia — Hardware WSE da Cerebras entrega velocidades de inferencia significativamente mais rapidas que provedores baseados em GPU.
- Alto throughput — Ideal para aplicacoes em tempo real e cargas de trabalho de alto volume.
- Nomes simples — Modelos usam nomes curtos (ex.:
llama-3.3-70b) sem prefixos de organizacao.