Pular para o conteúdo

Cerebras

Visao Geral

A Cerebras oferece inferencia ultra-rapida usando hardware customizado wafer-scale engine (WSE), entregando algumas das menores latencias disponiveis para modelos open-source. O Floopy encaminha requisicoes para a API compativel com OpenAI da Cerebras.

Modelos Suportados

ModeloJanela de ContextoNotas
llama-3.3-70b128KLlama 3.3 70B no WSE
llama-3.1-8b128KLlama 3.1 8B no WSE
qwen-3-32b128KQwen 3 32B no WSE

Configuracao

  1. Va para Settings > Providers no dashboard.
  2. Clique em Add provider e selecione Cerebras.
  3. Cole sua API key da Cerebras e clique em Save.

Uso

import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.floopy.ai/v1",
apiKey: process.env.FLOOPY_API_KEY,
});
const response = await client.chat.completions.create({
model: "llama-3.3-70b",
messages: [{ role: "user", content: "Explique computacao quantica." }],
});

Recursos Especificos

  • Ultra-baixa latencia — Hardware WSE da Cerebras entrega velocidades de inferencia significativamente mais rapidas que provedores baseados em GPU.
  • Alto throughput — Ideal para aplicacoes em tempo real e cargas de trabalho de alto volume.
  • Nomes simples — Modelos usam nomes curtos (ex.: llama-3.3-70b) sem prefixos de organizacao.