Qwen/Qwen2.5-7B 跑在 RTX4090¶

Qwen/Qwen2.5-7B 在 RTX4090 上需要多少 GPU。

架构¶

Scheme	Predicted	Δ	Error
FP16	14.18 GB	296.95 KB 偏多	0.0%
BF16 ✓	14.18 GB	296.95 KB 偏多	0.0%
FP8	7.09 GB	7.09 GB 偏多	100.0%
INT8	7.09 GB	7.09 GB 偏多	100.0%
FP4_FP8_MIXED	3.90 GB	10.28 GB 偏多	263.6%

Best: BF16 — safetensors header: all 73 weight tensors are BF16 (predicts 15,230,967,808 bytes, 0.0% error)

vllm serve Qwen/Qwen2.5-7B \
  --tensor-parallel-size 4 \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.9

生成方式:

llm-cal Qwen/Qwen2.5-7B --gpu RTX4090 --engine vllm --lang zh

Tier	GPUs	Weight/GPU	Headroom/GPU	Concurrent @ 128K
min	2	7.09 GB	13.02 GB	3
dev ★	4	3.55 GB	16.57 GB	9
prod	7	2.03 GB	18.09 GB	10