Let's Shape The Future Of Your Investments!

Natoque iaculis cursus augue urna commodo aptent morbi tortor porttitor quis ornare.

Let's Shape The Future Of Your Investments!

Natoque iaculis cursus augue urna commodo aptent morbi tortor porttitor quis ornare.

如何本地部署DEEPSEEK-R1

在本教程中,我将详细介绍如何在本地环境下,使用 Ollama 和 Chatbox 部署 DeepSeek-R1 模型。​通过这些步骤,您可以在个人电脑上运行该模型,实现高效的 AI 交互体验。

一、安装 Ollama

下载 Ollama:​访问 Ollama 官方网站,根据您的操作系统选择相应的安装包进行下载。​

安装 Ollama:​运行下载的安装包,按照提示完成安装过程。安装完成后,您可以在系统托盘中看到 Ollama 的图标,表示其正在运行。​

安装验证:安装完成后,为了确认 Ollama 是否成功安装,MacOS系统在终端输入 ollama -v 。如果安装正确,终端会显示 Ollama 的版本号,这就表明你已经成功完成了基础环境搭建的第一步。(windows 的话,win+r 输入 cmd)

二、模型部署

一)依据硬件精准选型

打开Ollama 模型库,你会看到丰富多样的 DeepSeek-R1 模型版本,如 1.5B、7B、32B 等。根据自身电脑硬件配置来选择合适的模型版本至关重要。

通用配置原则

  1. 模型显存占用(估算):
    • 每 1B 参数约需 1.5-2GB 显存(FP16 精度)或 0.75-1GB 显存(INT8/4-bit 量化)。
    • 例如:32B 模型在 FP16 下需约 48-64GB 显存,量化后可能降至 24-32GB
  2. 内存需求:至少为模型大小的 2 倍(用于加载和计算缓冲)。
  3. 存储:建议 NVMe SSD,模型文件大小从 1.5B(约 3GB)到 32B(约 64GB)不等。

二)分平台配置建议

以下按模型规模和平台分类,提供 最低配置推荐配置

1.5B 模型
平台最低配置推荐配置
Windows– CPU: Intel i5 / Ryzen 5– CPU: Intel i7 / Ryzen 7
– RAM: 8GB– RAM: 16GB
– GPU: NVIDIA GTX 1650 (4GB)– GPU: RTX 3060 (12GB)
macOS– M1/M2 芯片(8GB 统一内存)– M1 Pro/Max 或 M3 芯片(16GB+)
Linux– CPU: 4 核– CPU: 8 核
– RAM: 8GB– RAM: 16GB
– GPU: NVIDIA T4 (16GB)– GPU: RTX 3090 (24GB)
7B/8B 模型
平台最低配置推荐配置
Windows– CPU: Intel i7 / Ryzen 7– CPU: Intel i9 / Ryzen 9
– RAM: 16GB– RAM: 32GB
– GPU: RTX 3060 (12GB)– GPU: RTX 4090 (24GB)
macOS– M2 Pro/Max(32GB 统一内存)– M3 Max(64GB+ 统一内存)
Linux– CPU: 8 核– CPU: 12 核
– RAM: 32GB– RAM: 64GB
– GPU: RTX 3090 (24GB)– 多卡(如 2x RTX 4090)
14B 模型
平台最低配置推荐配置
Windows– GPU: RTX 3090 (24GB)– GPU: RTX 4090 + 量化优化
– RAM: 32GB– RAM: 64GB
macOS– M3 Max(64GB+ 统一内存)– 仅限量化版本,性能受限
Linux– GPU: 2x RTX 3090(通过 NVLink)– 多卡(如 2x RTX 4090 48GB)
– RAM: 64GB– RAM: 128GB
32B 模型
平台最低配置推荐配置
Windows– 不推荐(显存不足)– 需企业级 GPU(如 RTX 6000 Ada)
macOS– 无法本地部署(硬件限制)– 云 API 调用
Linux– GPU: 4x RTX 4090(48GB 显存)– 专业卡(如 NVIDIA A100 80GB)
– RAM: 128GB– RAM: 256GB + PCIe 4.0 SSD

平台差异说明

  1. Windows
    • 依赖 CUDA 和 NVIDIA 驱动,推荐使用 RTX 30/40 系列。
    • 大模型(14B+)需借助量化或模型分片技术。
  2. macOS
    • 仅限 Apple Silicon 芯片(M1/M2/M3),依赖 Metal 加速。
    • 模型规模超过 14B 时性能显著下降,建议量化或云端部署。
  3. Linux
    • 支持多 GPU 扩展和高效资源管理(如 NVIDIA Docker)。
    • 适合部署大型模型(14B+),需专业级硬件。

注意事项

  • 量化优化:使用 4-bit/8-bit 量化可大幅降低显存需求(如bitsandbytes[6])。
  • 框架支持:优先选择优化好的库(如 vLLM、DeepSpeed、HuggingFace)。
  • 散热:长时间推理需确保散热(建议风冷/水冷)。

建议根据实际硬件选择蒸馏版本,并优先在 Linux 环境下部署大模型。

三)安装及运行

这里示例参考 DeepSeek-R1-7b 模型:

接下来在命令行中输入以下命令,下载并运行 DeepSeek-R1-7b 模型:

如果是第一次运行,Ollama 会自动下载模型文件,请耐心等待。

四)测试 DeepSeek-R1-7b

模型运行后,可以直接在命令行中与 DeepSeek 交互。尝试您测试的命令,DeepSeek 会生成对应的回答。

三、安装ChatBox

为了提升与DeepSeek模型的交互体验,我们可以安装ChatBox,并通过其图形用户界面(GUI)调用Ollama的API。

一)下载并安装 ChatBox

ChatBox是一款AI客户端应用和智能助手,支持众多先进的AI模型和API调用,同样可在Windows、MacOS、Linux等桌面系统上使用,难能可贵地是,ChatBox还提供IOS与Android等移动端和网页端使用。

下载步骤:

  1. 访问 ChatBox 的官方网站:https://chatboxai.app/zh#download
  2. 根据您的操作系统(Windows、MacOS、Linux)选择对应的安装包下载。
  3. 运行安装程序,按照提示完成安装。

四、配置Ollama API

安装完成后,打开ChatBox,在Setting中选择Ollama-API,并在相应的模型中选择DeepSeek。如果没有可用的模型,需要根据自己的操作系统进行相应的本地配置。配置完成后保存即可在新对话中与DeepSeek进行对话啦!

「MacOS配置」

1.打开命令行终端,输入以下命令:

2.重启Ollama应用,使配置生效。

「Windows配置」

在Windows上,Ollama会继承用户和系统环境变量。

  1. 通过任务栏退出Ollama应用。
  2. 打开系统设置或控制面板,搜索“环境变量”
  3. 编辑用户环境的环境变量,创建新变量OLLAMA_HOST和OLLAMA_ORIGINS,值分别为0.0.0.0和*
  4. 点击**「确定/应用」**以保存设置。
  5. 从Windows开始菜单启动Ollama应用。

通过以上步骤,您即可在本地成功部署 DeepSeek-R1 模型,并通过 Chatbox 实现便捷的交互体验。