Cerebras

Visao Geral

A Cerebras oferece inferencia ultra-rapida usando hardware customizado wafer-scale engine (WSE), entregando algumas das menores latencias disponiveis para modelos open-source. O Floopy encaminha requisicoes para a API compativel com OpenAI da Cerebras.

Modelos Suportados

Modelo	Janela de Contexto	Notas
`llama-3.3-70b`	128K	Llama 3.3 70B no WSE
`llama-3.1-8b`	128K	Llama 3.1 8B no WSE
`qwen-3-32b`	128K	Qwen 3 32B no WSE

Configuracao

Va para Settings > Providers no dashboard.
Clique em Add provider e selecione Cerebras.
Cole sua API key da Cerebras e clique em Save.

Uso

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.floopy.ai/v1",
  apiKey: process.env.FLOOPY_API_KEY,
});

const response = await client.chat.completions.create({
  model: "llama-3.3-70b",
  messages: [{ role: "user", content: "Explique computacao quantica." }],
});

from openai import OpenAI

client = OpenAI(base_url="https://api.floopy.ai/v1", api_key=os.environ["FLOOPY_API_KEY"])

response = client.chat.completions.create(
    model="llama-3.3-70b",
    messages=[{"role": "user", "content": "Explique computacao quantica."}],
)

curl https://api.floopy.ai/v1/chat/completions \
  -H "Authorization: Bearer $FLOOPY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model": "llama-3.3-70b", "messages": [{"role": "user", "content": "Explique computacao quantica."}]}'

Recursos Especificos

Ultra-baixa latencia — Hardware WSE da Cerebras entrega velocidades de inferencia significativamente mais rapidas que provedores baseados em GPU.
Alto throughput — Ideal para aplicacoes em tempo real e cargas de trabalho de alto volume.
Nomes simples — Modelos usam nomes curtos (ex.: llama-3.3-70b) sem prefixos de organizacao.