Check.AI

深度指南 · 2026 年 5 月 18 日 · 作者

本地部署开源大模型完全指南:显卡、显存、框架、模型怎么选

"我这张显卡能跑多大的模型""装 Ollama 还是 vLLM""DeepSeek 70B 是不是必须服务器"——群里每周都在问这几个。本地跑大模型在 2026 年早就不是发烧友专属:DeepSeek 把蒸馏小模型做到接近云端中端质量、量化技术让 7B 塞进 4GB 显存、Ollama 一行命令搞定。这篇用真实显存数字、框架取舍、显卡分档、电费账,把"我该怎么在自己机器上跑大模型"一次讲透。

30 秒结论

在 Check.AI 对比开源模型的参数和能力 →

什么时候该本地跑(什么时候别)

先泼冷水:大多数人不需要本地部署。DeepSeek API 每百万 token 几毛钱,低频用一年都花不了几十块,还不用买显卡、装环境、调框架。

本地真正值的三种情况:

反过来,如果你只是想"玩玩 AI"或者每天调几十次,别折腾本地,直接用 API。把买显卡的钱换成 API 额度能用好几年。

显存怎么算:量化是关键

本地部署第一道坎是显存。算法很简单:模型参数量 × 每参数字节数 + 30% 余量(激活值、KV cache)。每参数字节数由量化精度决定:

精度 每参数 质量 7B 显存 适合
FP162 字节原始~16GB生产 / 评测
INT81 字节损失极小~8GB质量敏感
INT4 (q4_k_m)0.5 字节损失个位数 %~4-5GB个人甜点

数据来源:llama.cpp GGUF 量化基准、知乎 LLM 推理实测(2026-02)、各模型 HuggingFace 卡。

各规模 INT4 显存速查

模型规模 INT4 显存 FP16 显存 最低显卡
7B~5GB~16GBRTX 3060 12GB
13-14B~9GB~28GBRTX 4060 Ti 16GB
32B~20GB~64GBRTX 4090/5090 32GB
70B~40GB~140GBRTX 6000 Ada 48GB / 双卡

记住一句:个人本地永远从 INT4 起步。质量损失通常感觉不出来,显存省 75%,速度还更快。要原始精度是生产和跑分才需要的事。

显卡分档:你的卡能跑多大

入门档(8-16GB)

RTX 3060 12GB / 4060 8GB / 4060 Ti 16GB。能舒服跑 7B-14B INT4。这一档足够个人助手、本地 RAG、代码补全。4060 Ti 16GB 是性价比之王——16GB 能塞 14B INT4 还有余量。

主力档(24-32GB)

RTX 4090 24GB / 5090 32GB。32B INT4 跑得动,或者 14B FP16 要质量。这一档能干真活:本地 agent、批量处理、严肃推理。两张 RTX 5060 Ti 16G(共 32G)走 vLLM 也能跑 32B AWQ,是预算方案。

专业档(48GB+)

RTX 6000 Ada 48GB,或双 RTX 4090/5090 NVLink 显存池化。70B INT4 的门槛。再往上 70B FP16 要双 80GB(A100/H100),那是机房不是桌面了,个人基本不碰。

没独显 / 核显

llama.cpp 走 CPU + 系统内存。32GB 内存能跑 7B INT4,但速度可能每秒几个 token(GPU 是几十上百)。仅适合极低频、不在乎等待的场景。别指望用它做实时对话。

框架怎么选:Ollama / vLLM / llama.cpp / LM Studio

Ollama — 个人首选

一行命令 ollama run deepseek-r1:7b 就跑起来。0.5+ 版本支持 CPU/GPU 混合推理、动态模型卸载。模型库现成,切换方便。个人、单机、桌面、试验,闭眼选 Ollama。缺点是高并发吞吐不如 vLLM。

vLLM — 生产服务

要把模型做成 API 给多人/多请求用,vLLM 是标准答案。v0.7+ 的 Chunked Prefill + Prefix Caching 对显存碎片管理高效,吞吐远超 Ollama。要 CUDA 12.4+,多卡并行原生支持。做产品后端选 vLLM。配置比 Ollama 复杂一档。

llama.cpp — 最通用

C++ 写的,几乎在哪都能跑:CPU、Mac Metal、各种边缘设备。GGUF 量化格式的发源地。没 N 卡、要极致可移植、Mac 命令行用户首选。性能调优空间大但要折腾。

LM Studio — 图形界面新手友好

带 GUI,点点鼠标下载模型就能聊,Mac(含 MLX 加速)/ Windows 都好用。完全不想碰命令行的人用这个起步。功能不如前三个深,但门槛最低。

一句话路线:新手 LM Studio 摸一摸 → 上手了换 Ollama 当日常 → 要做产品上 vLLM → Mac 重度用户直接 llama.cpp / MLX。

2026 年本地跑哪些模型

选型逻辑和云端一样:没有全能王,按场景配。个人最稳的起步组合是 DeepSeek-R1-Distill-Qwen-7B(推理)+ Qwen3-7B(中文),两个加起来 10GB 显存搞定 90% 需求。

Apple Silicon:被低估的方案

很多人不知道:Mac 的统一内存(Unified Memory)是本地大模型的隐藏优势。普通 PC 显存和内存分开,显卡 16GB 就是 16GB;Apple Silicon 的内存 CPU/GPU 共享,M4 Max 128GB 里能拿出 100GB+ 当"显存"用。

LM Studio(图形界面,内置 MLX)或 llama.cpp(Metal 加速)。MLX 是 Apple 自家的 ML 框架,针对统一内存做了原生优化,比通用方案快一档。

结论:如果你已经有一台高内存 Mac,别再去研究买 N 卡——你手上这台可能已经够用,而且体验更安静。

真实成本:本地 vs API

拿一个具体场景算账:每天 5000 次调用,每次输入 800 token、输出 200 token,跑 7B 级模型。

方案 前期投入 月成本 回本周期
DeepSeek API(云端)¥0~¥150-300无(一直付)
本地 RTX 4090~¥13,000~¥80 电费约 8-14 个月
本地 Mac M4 Max(已有)¥0(复用)~¥30 电费立即

电费按满载 0.4 度/小时、每天 8 小时、¥0.6/度估算。前期投入按 2026 年 5 月国内零售价。

说人话:低频用 API,别买卡。高频 + 长期才本地划算,而且回本要 8-14 个月——这期间你得真的天天高频用。本地真正不可替代的不是省钱,是"数据不出本地 + 调用无上限 + 离线可用 + 不被任何厂商卡脖子"。为这四个买单的人,才该本地部署。

FAQ

最少要什么显卡?7B INT4 只要 4-5GB,RTX 3060 就行。没独显可 llama.cpp 走 CPU,但慢。

Ollama 还是 vLLM?个人玩 Ollama(一行命令),做服务 vLLM(高吞吐)。Mac 用 LM Studio / llama.cpp。

量化怎么选?个人一律 INT4 起步,显存省 75%,质量损失个位数 %。

跑哪个模型?综合 DeepSeek-R1 蒸馏、中文 Qwen3、Agent GLM-4-9B、代码 Qwen3 Coder。

比 API 便宜吗?低频不便宜,高频+长期才回本(8-14 个月)。核心价值是数据隐私 + 无限调用。

Mac 能跑吗?能,统一内存是优势。M4 Max 128GB 量化跑 70B,用 MLX。

→ 在 Check.AI 对比所有开源模型的参数、上下文和能力