在本教程中,我将详细介绍如何在本地环境下,使用 Ollama 和 Chatbox 部署 DeepSeek-R1 模型。通过这些步骤,您可以在个人电脑上运行该模型,实现高效的 AI 交互体验。
一、安装 Ollama
下载 Ollama:访问 Ollama 官方网站,根据您的操作系统选择相应的安装包进行下载。
安装 Ollama:运行下载的安装包,按照提示完成安装过程。安装完成后,您可以在系统托盘中看到 Ollama 的图标,表示其正在运行。

安装验证:安装完成后,为了确认 Ollama 是否成功安装,MacOS系统在终端输入 ollama -v 。如果安装正确,终端会显示 Ollama 的版本号,这就表明你已经成功完成了基础环境搭建的第一步。(windows 的话,win+r 输入 cmd)
ollama -v
二、模型部署
一)依据硬件精准选型
打开Ollama 模型库,你会看到丰富多样的 DeepSeek-R1 模型版本,如 1.5B、7B、32B 等。根据自身电脑硬件配置来选择合适的模型版本至关重要。

通用配置原则
- 模型显存占用(估算):
- 每 1B 参数约需 1.5-2GB 显存(FP16 精度)或 0.75-1GB 显存(INT8/4-bit 量化)。
- 例如:32B 模型在 FP16 下需约 48-64GB 显存,量化后可能降至 24-32GB。
- 内存需求:至少为模型大小的 2 倍(用于加载和计算缓冲)。
- 存储:建议 NVMe SSD,模型文件大小从 1.5B(约 3GB)到 32B(约 64GB)不等。
二)分平台配置建议
以下按模型规模和平台分类,提供 最低配置 和 推荐配置。
1.5B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – CPU: Intel i5 / Ryzen 5 | – CPU: Intel i7 / Ryzen 7 |
– RAM: 8GB | – RAM: 16GB | |
– GPU: NVIDIA GTX 1650 (4GB) | – GPU: RTX 3060 (12GB) | |
macOS | – M1/M2 芯片(8GB 统一内存) | – M1 Pro/Max 或 M3 芯片(16GB+) |
Linux | – CPU: 4 核 | – CPU: 8 核 |
– RAM: 8GB | – RAM: 16GB | |
– GPU: NVIDIA T4 (16GB) | – GPU: RTX 3090 (24GB) |
7B/8B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – CPU: Intel i7 / Ryzen 7 | – CPU: Intel i9 / Ryzen 9 |
– RAM: 16GB | – RAM: 32GB | |
– GPU: RTX 3060 (12GB) | – GPU: RTX 4090 (24GB) | |
macOS | – M2 Pro/Max(32GB 统一内存) | – M3 Max(64GB+ 统一内存) |
Linux | – CPU: 8 核 | – CPU: 12 核 |
– RAM: 32GB | – RAM: 64GB | |
– GPU: RTX 3090 (24GB) | – 多卡(如 2x RTX 4090) |
14B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – GPU: RTX 3090 (24GB) | – GPU: RTX 4090 + 量化优化 |
– RAM: 32GB | – RAM: 64GB | |
macOS | – M3 Max(64GB+ 统一内存) | – 仅限量化版本,性能受限 |
Linux | – GPU: 2x RTX 3090(通过 NVLink) | – 多卡(如 2x RTX 4090 48GB) |
– RAM: 64GB | – RAM: 128GB |
32B 模型
平台 | 最低配置 | 推荐配置 |
---|---|---|
Windows | – 不推荐(显存不足) | – 需企业级 GPU(如 RTX 6000 Ada) |
macOS | – 无法本地部署(硬件限制) | – 云 API 调用 |
Linux | – GPU: 4x RTX 4090(48GB 显存) | – 专业卡(如 NVIDIA A100 80GB) |
– RAM: 128GB | – RAM: 256GB + PCIe 4.0 SSD |
平台差异说明
- Windows:
- 依赖 CUDA 和 NVIDIA 驱动,推荐使用 RTX 30/40 系列。
- 大模型(14B+)需借助量化或模型分片技术。
- macOS:
- 仅限 Apple Silicon 芯片(M1/M2/M3),依赖 Metal 加速。
- 模型规模超过 14B 时性能显著下降,建议量化或云端部署。
- Linux:
- 支持多 GPU 扩展和高效资源管理(如 NVIDIA Docker)。
- 适合部署大型模型(14B+),需专业级硬件。
注意事项
- 量化优化:使用 4-bit/8-bit 量化可大幅降低显存需求(如bitsandbytes[6])。
- 框架支持:优先选择优化好的库(如 vLLM、DeepSpeed、HuggingFace)。
- 散热:长时间推理需确保散热(建议风冷/水冷)。
建议根据实际硬件选择蒸馏版本,并优先在 Linux 环境下部署大模型。
三)安装及运行
这里示例参考 DeepSeek-R1-7b 模型:
接下来在命令行中输入以下命令,下载并运行 DeepSeek-R1-7b 模型:
ollama run deepseek-r1:7b
如果是第一次运行,Ollama 会自动下载模型文件,请耐心等待。
四)测试 DeepSeek-R1-7b
模型运行后,可以直接在命令行中与 DeepSeek 交互。尝试您测试的命令,DeepSeek 会生成对应的回答。

三、安装ChatBox
为了提升与DeepSeek模型的交互体验,我们可以安装ChatBox,并通过其图形用户界面(GUI)调用Ollama的API。
一)下载并安装 ChatBox
ChatBox是一款AI客户端应用和智能助手,支持众多先进的AI模型和API调用,同样可在Windows、MacOS、Linux等桌面系统上使用,难能可贵地是,ChatBox还提供IOS与Android等移动端和网页端使用。
下载步骤:
- 访问 ChatBox 的官方网站:https://chatboxai.app/zh#download。
- 根据您的操作系统(Windows、MacOS、Linux)选择对应的安装包下载。
- 运行安装程序,按照提示完成安装。
四、配置Ollama API
安装完成后,打开ChatBox,在Setting中选择Ollama-API,并在相应的模型中选择DeepSeek。如果没有可用的模型,需要根据自己的操作系统进行相应的本地配置。配置完成后保存即可在新对话中与DeepSeek进行对话啦!

「MacOS配置」
1.打开命令行终端,输入以下命令:
launchctl setenv OLLAMA_HOST "0.0.0.0"
launchctl setenv OLLAMA_ORIGINS "*"
2.重启Ollama应用,使配置生效。
「Windows配置」
在Windows上,Ollama会继承用户和系统环境变量。
- 通过任务栏退出Ollama应用。
- 打开系统设置或控制面板,搜索“环境变量”
- 编辑用户环境的环境变量,创建新变量OLLAMA_HOST和OLLAMA_ORIGINS,值分别为0.0.0.0和*
- 点击**「确定/应用」**以保存设置。
- 从Windows开始菜单启动Ollama应用。

通过以上步骤,您即可在本地成功部署 DeepSeek-R1 模型,并通过 Chatbox 实现便捷的交互体验。