首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

DeepSeek R1 使用指南:架构、训练、本地部署

  • 25-02-20 16:20
  • 3070
  • 7535
blog.csdn.net

图片

1.DeepSeek 在 LLM 推理上的创新方法

DeepSeek 在最新论文中详细介绍了他们通过强化学习(RL)提升大语言模型(LLM)推理能力的创新方法——DeepSeek-R1。这项研究标志着一个重要的进展,即如何通过纯强化学习提升 LLM 解决复杂问题的能力,而不依赖于大量的监督微调。

2.DeepSeek-R1 的技术概述

2.1 模型架构

DeepSeek-R1 不是单一的模型,而是一个模型家族,包括:

  • DeepSeek-R1-Zero

  • DeepSeek-R1

2.2 主要区别
  • DeepSeek-R1-Zero 是团队最初的实验,完全基于强化学习,没有进行任何监督微调。他们从基础模型出发,直接应用强化学习,让模型通过试错过程自行发展推理能力。这种方法在 AIME 2024 竞赛中达到了 71% 的准确率,展现出了一定的推理能力,但存在可读性和语言一致性上的限制。该模型采用 6710 亿参数,使用 Mixture-of-Experts (MoE) 架构,每个 token 仅激活 370 亿参数,展现出了诸如 自我验证、反思、长链推理(CoT) 等涌现能力。

  • DeepSeek-R1 采用了更复杂的多阶段训练方法。它并非纯强化学习,而是在强化学习前,首先进行 监督微调(使用精心挑选的“冷启动数据”),然后再应用强化学习。这种方法解决了 DeepSeek-R1-Zero 的局限性,同时实现了更高的性能。该模型仍然是 6710 亿参数,但在可读性和连贯性上有明显提升。

3. 训练方法对比

3.1 训练方法
  • 强化学习(RL): DeepSeek-R1 主要依赖强化学习,而不是传统的监督学习。训练过程中使用 群体相对策略优化(GRPO),结合准确性和格式奖励来增强推理能力,而无需大量标注数据。

  • 蒸馏技术: DeepSeek 还发布了从 1.5B 到 70B 参数的蒸馏版本,这些模型基于 Qwen 和 Llama 架构,证明了复杂推理能力可以被压缩进更小、更高效的模型。蒸馏过程使用 DeepSeek-R1 生成的合成推理数据进行微调,从而在降低计算成本的同时保持高性能。

3.2 训练流程对比

3.2.1 DeepSeek-R1-Zero 训练流程

  1. 从基础模型开始

  2. 直接应用强化学习

  3. 使用简单的准确性和格式奖励

3.2.2 DeepSeek-R1 训练流程

  1. 先进行数千条高质量示例的监督微调

  2. 强化学习,专注于推理任务

  3. 通过拒绝采样收集新的训练数据

  4. 进行最终的强化学习,涵盖所有任务

3.3 性能指标

3.3.1 推理基准测试

DeepSeek-R1 在多个基准测试中表现出色:

  • AIME 2024: 通过率 79.8%,略高于 OpenAI 的 o1–1217(79.2%)

  • MATH-500: 得分 97.3%,领先于 o1–1217 的 96.4%

  • SWE-bench Verified: 在编程任务上表现优异,展示了其代码推理能力

3.3.2 成本优势

DeepSeek-R1 API 价格为 每百万输入 token $0.14(缓存命中情况下),远低于 OpenAI 的 o1 模型。

3.4 局限性与未来方向

论文提到了几个待改进的领域:

  • 处理特定格式输出的能力仍需优化

  • 软件工程任务上的表现可进一步提升

  • 在多语言环境下的语言混合问题仍待解决

  • Few-shot 提示词(Few-shot Prompting)会导致性能下降

未来研究方向包括 函数调用、多轮对话、复杂角色扮演 等新能力的扩展。

4. 部署与获取方式

4.1 开源与许可

DeepSeek-R1 及其变体均以 MIT 许可证 公开,支持开源合作和商业用途,包括模型蒸馏。这一举措有助于推动创新,降低 AI 模型开发的门槛。

4.2 模型格式

模型及其蒸馏版本支持 GGML、GGUF、GPTQ、HF 等格式,适用于不同的本地部署需求。

4.3 获取方式

1. 通过 DeepSeek Chat 平台

DeepSeek Chat 提供 无需配置 的交互界面,可直接体验 DeepSeek-R1 的推理能力。

使用步骤:

  1. 访问 DeepSeek Chat 平台

  2. 注册或登录账户

  3. 选择 “Deep Think” 模式,体验 DeepSeek-R1 的逐步推理能力

图片

2. 通过 DeepSeek API

DeepSeek 提供与 OpenAI 兼容的 API,可轻松集成到各种应用中。

使用步骤:

a. 获取 API Key

  • 访问 DeepSeek API 平台,注册并生成 API Key

b. 配置环境

  • 设置 base_url 为 https://api.deepseek.com/v1

  • 在 HTTP 头部使用 API Key 进行身份验证

c. 调用 API

  • 发送请求到 API,获取 DeepSeek-R1 生成的响应

  • 详细文档可在 DeepSeek API Docs 中查看

图片

5. 本地部署 DeepSeek-R1
5.1  完整模型(R1 和 R1-Zero)

硬件需求:

  • GPU: 建议使用 Nvidia RTX 3090 或更高,以提供流畅的运行体验

  • CPU: 至少 48GB RAM 和 250GB 硬盘空间(但无 GPU 加速时性能较慢)

5.2  蒸馏模型(适合低配设备)
  • 7B 参数模型 适用于 6GB VRAM GPU 或 4GB RAM CPU(使用 GGML/GGUF 格式)

6. 本地运行工具
  • Ollama(推荐):用于本地运行 AI 模型

    • 下载地址:Download Ollama on macOS

图片

接下来,需要在本地提取并运行 DeepSeek R1 模型。

Ollama 提供不同尺寸的模型 — 基本上,更大的模型等于更智能的 AI,但需要更好的 GPU。以下是阵容:

1.5B 版本(最小):
ollama run deepseek-r1:1.5b 

8B 版本:
ollama run deepseek-r1:8b 

14B 版本:
ollama run deepseek-r1:14b 

32B 版本:
ollama run deepseek-r1:32b 

70B 版本(最大/最智能):
ollama run deepseek-r1:70b

要开始尝试 DeepSeek-R1,建议从较小的模型开始,以熟悉设置并确保与硬件的兼容性。我们可以通过打开终端并执行以下命令来启动此过程:

ollama 运行 deepseek-r1:8b

    图片

    通过 Ollama 向本地下载的 DeepSeek-R1 发送请求:

    Ollama 提供了一个 API 端点,用于以编程方式与 DeepSeek-R1 进行交互。在发出 API 请求之前,请确保 Ollama 服务器在本地运行。我们可以通过运行以下命令来启动服务器:

    ollama serve

    一旦服务器处于活动状态,就可以使用curl以下命令发送请求:

    curl -X POST http://localhost:11434/api/generate -d '{ 
      "model": "deepseek-r1", 
      "prompt": "您的问题或提示在此" 
    }'

    将其替换"Your question or prompt here"为向模型提供的实际输入。此命令向本地 Ollama 服务器发送 POST 请求,该服务器使用指定的 DeepSeek-R1 模型处理提示并返回生成的响应。

    • vLLM/SGLang:可用于本地推理,例如:

      用于在本地提供模型。vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — force-eager 等命令可用于精简版本。

    图片

    • llama.cpp:另一个适用于本地部署的工具


    7. 社区案例

    以下是一些开发者使用 DeepSeek-R1 的案例:

    ✅ 在 7 台 M4 Pro Mac Mini 和 1 台 M4 Max MacBook Pro 上运行 DeepSeek-R1

    图片

    ✅ DeepSeek-R1 1.5B 在浏览器中本地运行,速度达 60 token/s(基于 WebGPU)

    图片

    ✅ 本地 RAG 应用:使用 DeepSeek-R1 进行 PDF 文档交互

    图片

    图片

    ✅ 在手机上完美运行 DeepSeek-R1 1.5B 版本

    图片

    ✅ 轻松破解复杂数学问题!(在 M4 Max 上推理 3200 个 token 仅需 35 秒)

    图片


    8. 总结

    从 DeepSeek-R1-Zero 到 DeepSeek-R1,团队经历了一次重要的学习过程。DeepSeek-R1-Zero 证明了 纯强化学习 可以奏效,而 DeepSeek-R1 进一步展示了 监督学习+强化学习 结合的优势,使模型更加强大和实用。

    9. 合作机会 ?

    如果你对 AI 研究感兴趣,欢迎关注我一起探索更多可能性!

    注:本文转载自blog.csdn.net的即刻提优的文章"https://blog.csdn.net/max202011161630/article/details/145392788"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
    复制链接
    复制链接
    相关推荐
    发表评论
    登录后才能发表评论和回复 注册

    / 登录

    评论记录:

    未查询到任何数据!
    回复评论:

    分类栏目

    后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

    热门文章

    139
    资讯
    关于我们 隐私政策 免责声明 联系我们
    Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
    Scroll to Top