Qwen/Qwen2.5-72B-Instruct 跑在 H800¶

Qwen/Qwen2.5-72B-Instruct 在 H800 上需要多少 GPU。

架构¶

Scheme	Predicted	Δ	Error
FP16	135.42 GB	1.68 MB 偏多	0.0%
BF16 ✓	135.42 GB	1.68 MB 偏多	0.0%
FP8	67.71 GB	67.71 GB 偏多	100.0%
INT8	67.71 GB	67.71 GB 偏多	100.0%
FP4_FP8_MIXED	37.24 GB	98.18 GB 偏多	263.6%

Best: BF16 — safetensors header: all 23 weight tensors are BF16 (predicts 145,410,752,512 bytes, 0.0% error)

Context tokens	KV bytes
4,096	1.25 GB
32,768	10.00 GB

vllm serve Qwen/Qwen2.5-72B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.9

生成方式:

llm-cal Qwen/Qwen2.5-72B-Instruct --gpu H800 --engine vllm --lang zh

Tier	GPUs	Weight/GPU	Headroom/GPU	Concurrent @ 128K
min	4	33.86 GB	33.20 GB	3
dev ★	8	16.93 GB	50.13 GB	10
prod	8	16.93 GB	50.13 GB	10