关键数据
70B
生产级私有化模型规模
不是所有企业都能把数据交给云端。这一篇给出一套被 6 家客户验证过的私有化部署路径:硬件选型、推理框架选型(vLLM / TGI / TensorRT-LLM)、量化方案、容量规划、成本模型,以及一条可在 6 周内上线的工程路线图。
01
硬件:70B 模型的最小可行配置
INT4 量化下,70B 模型单卡可塞进 1×H100(80G)或 2×A100(80G)。生产推荐 4×H100 + vLLM,吞吐 2000 token/s,可服务 200+ 并发用户。显存不够时 INT8 + TensorRT-LLM 是更激进的方案。
02
推理框架:vLLM / TGI / TensorRT-LLM 怎么选
vLLM 适合需要快速迭代、频繁换模型、多卡扩展的场景。TGI 适合 HuggingFace 生态深度集成。TensorRT-LLM 适合固定模型 + 极致性能。我们 80% 私有化项目选 vLLM。
03
量化:INT4 在生产中可用
AWQ INT4 量化下 70B 模型质量损失 < 2%(MT-Bench),延迟下降 50%,显存减半。生产推荐 INT4 + 关键 capability 用 INT8 校准。SFT 微调后再量化效果更稳。
04
成本:6 周 1 台 8 卡 H100 节点,约 35 万
包含硬件折旧 + 电费 + 运维。一次买断 vs 云租赁的回收周期约 9 个月。如果模型调用量低于 5 亿 token/月,租赁云端 API 更划算。
bash
一段 vLLM 启动 + 量化加载示例
# 启动 vLLM 服务,加载 AWQ INT4 量化的 private-70b
# 4×H100(80G),吞吐 2000 token/s
docker run -d --gpus all --shm-size=1g \
-p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
your-vllm-runtime:latest \
--model ouryun/private-70b-int4 \
--quantization awq \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.92 \
--max-model-len 32768 \
--enable-prefix-caching \
--served-model-name ouryun-private-72b
# 健康检查
curl http://localhost:8000/v1/models | jq .
# 调用(Chat Completions 兼容协议)
curl http://localhost:8000/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{
"model": "ouryun-private-72b",
"messages": [{"role": "user", "content": "用 3 句话总结私有化部署的关键决策"}]
}'成果
私有化 LLM · 量化的成果
6w
从立项到生产
70B
支持最大模型规模
0
数据离开企业内网
· 2026/5/22