Docs·API

Cerebras

InferenceFREE TIER

Wafer-scale chip inference — 1,000+ tokens/sec

cerebras.ai ↗Pricing →/api/v1/latency

Operational

All systems responding normally

Last checked 27/04/2026, 9:14:41 pm

201ms response

Uptime History100.00% uptime

2026-04-24Today

Uptime

100.00%

Avg Latency

255ms

P95 Latency

360ms

Fastest

90ms

Checks

150

Response Time

Last 60 checks

90ms min255ms avg510ms max

💰 Pricing

llama-3.3-70bFREE

Input: $0.6/1MOutput: $0.6/1M

1000+ tokens/sec. llama-3.1-8b: $0.10/$0.10

Free tier available

⚡ Rate Limits

free

RPM: 30TPM: 60,000

🤖 Models (1)

Model	Task	Context	Vision	Tools	JSON
Llama 3.3 70B 1000+ tokens/sec sustained	llm	128k	—	✅	✅

Recent Checks

Showing last 15

Operational

201ms27 Apr, 09:14 pm

Operational

240ms27 Apr, 08:25 pm

Operational

178ms27 Apr, 07:34 pm

Operational

179ms27 Apr, 06:40 pm

Operational

325ms27 Apr, 05:41 pm

Operational

187ms27 Apr, 04:40 pm

Operational

210ms27 Apr, 03:40 pm

Operational

248ms27 Apr, 02:31 pm

Operational

201ms27 Apr, 01:10 pm

Operational

117ms27 Apr, 11:50 am

Operational

317ms27 Apr, 11:06 am

Operational

298ms27 Apr, 10:03 am

Operational

327ms27 Apr, 09:46 am

Operational

198ms27 Apr, 09:20 am

Operational

186ms27 Apr, 08:56 am

API Quick Access

Health Latency Freshness Pricing Models

Other Inference Providers

Groq

LPU inference — fastest tokens per second on the market

Together AI

Open-source model inference — Llama, Mixtral, FLUX

Fireworks AI

Fast open-model inference — FireFunction, Llama, Mixtral

OpenRouter

Unified API across 200+ models — route by price or speed

Hugging Face

Serverless inference API — 100k+ open models on demand

fal.ai

Ultra-fast image & video model inference for agents

Visit Cerebras →View Pricing ← All Providers