← 洞察私有化

私有化部署 LLM：架构、推理和成本

金融、医疗、政务为什么必须私有化？以及一条可在 6 周内上线 70B 模型的生产路径。

2026/5/2215 分钟金融 / 医疗 / 政务 / 制造

关键数据

70B

生产级私有化模型规模

不是所有企业都能把数据交给云端。这一篇给出一套被 6 家客户验证过的私有化部署路径：硬件选型、推理框架选型（vLLM / TGI / TensorRT-LLM）、量化方案、容量规划、成本模型，以及一条可在 6 周内上线的工程路线图。

硬件：70B 模型的最小可行配置

INT4 量化下，70B 模型单卡可塞进 1×H100（80G）或 2×A100（80G）。生产推荐 4×H100 + vLLM，吞吐 2000 token/s，可服务 200+ 并发用户。显存不够时 INT8 + TensorRT-LLM 是更激进的方案。

推理框架：vLLM / TGI / TensorRT-LLM 怎么选

vLLM 适合需要快速迭代、频繁换模型、多卡扩展的场景。TGI 适合 HuggingFace 生态深度集成。TensorRT-LLM 适合固定模型 + 极致性能。我们 80% 私有化项目选 vLLM。

量化：INT4 在生产中可用

AWQ INT4 量化下 70B 模型质量损失 < 2%（MT-Bench），延迟下降 50%，显存减半。生产推荐 INT4 + 关键 capability 用 INT8 校准。SFT 微调后再量化效果更稳。

成本：6 周 1 台 8 卡 H100 节点，约 35 万

包含硬件折旧 + 电费 + 运维。一次买断 vs 云租赁的回收周期约 9 个月。如果模型调用量低于 5 亿 token/月，租赁云端 API 更划算。

bash

一段 vLLM 启动 + 量化加载示例

# 启动 vLLM 服务，加载 AWQ INT4 量化的 private-70b
# 4×H100（80G），吞吐 2000 token/s
docker run -d --gpus all --shm-size=1g \
  -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  your-vllm-runtime:latest \
  --model ouryun/private-70b-int4 \
  --quantization awq \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.92 \
  --max-model-len 32768 \
  --enable-prefix-caching \
  --served-model-name ouryun-private-72b

# 健康检查
curl http://localhost:8000/v1/models | jq .

# 调用（Chat Completions 兼容协议）
curl http://localhost:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "ouryun-private-72b",
    "messages": [{"role": "user", "content": "用 3 句话总结私有化部署的关键决策"}]
  }'