Skip to content

v3.0.0-beta4

Pre-release
Pre-release
Compare
Choose a tag to compare
@ZHUI ZHUI released this 12 Mar 08:19
· 15 commits to release/3.0-beta4-new since this release
a286abc

本次版本中,我们全面集成了 DeepSeek R1类的思考模型。推理团队深度优化了模型推理,速度业界领先。此外,我们还发布了自研PP-UIE信息抽取模型。本次重点更新如下。

重点更新:

  • 模型新增

    • DeepSeek V3/R1, R1-distill, QwQ-32B 热门思考模型,全面支持。用户可以点击官方模型文档列表查看、下载所有模型。
    • 飞桨自研发布下一代通用信息抽取工具 PP-UIE 全新发布。支持8K长度信息抽取。使用文档
  • 推理部署

    • 全面支持DeepSeek V3/R1满血版FP8、INT8、4比特量化推理,MTP投机解码。
      • FP8推理,单机输出超1000 tokens/s;4比特单机部署,输出超2100 tokens/s!
    • 首次协同推理团队,发布统一推理部署镜像,热门模型一键部署。推理部署使用文档全面更新,体验全面提升!见文档
  • 模型训练:

    • 新增大模型 Embedding 训练,支持INF-CL超大batch size训练。
    • 新增MergeKit模型融合工具,缓解对齐代价。见文档
    • 低资源训练 全面优化。16G小显存可以流畅训练。
  • 其他重点特性:

    • 文档页面,新增模型列表展示。用户可查看、下载对应模型文件。见文档
    • 训练新增 adam-mini 优化器。AdamW优化器支持 BF16 动量。

下面是一些对应的更新细节:

1. 模型、框架组件更新

  • 模型新增
    • 模型新增列表:
      • paddlenlp/PP-UIE-0.5B, paddlenlp/PP-UIE-1.5B, paddlenlp/PP-UIE-7B, paddlenlp/PP-UIE-14B
      • deepseek-ai/DeepSeek-V3, deepseek-ai/DeepSeek-V3-Base,deepseek-ai/DeepSeek-R1, deepseek-ai/DeepSeek-R1-Zero,
      • deepseek-ai/DeepSeek-R1-Distill-Llama-70B, deepseek-ai/DeepSeek-R1-Distill-Llama-8B, deepseek-ai/DeepSeek-R1-Distill-Qwen-14B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-32B, deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
      • Qwen/Qwen2.5-7B-Instruct-1M,Qwen/Qwen2.5-14B-Instruct-1M, Qwen/QwQ-32B, Qwen/QwQ-32B-Preview
    • PR #9738: Deepseek V3 模型新增。PR #9876: 增加 MTP 支持。PR #9797:修复 TP问题。 PR #9643: Deepseek llama3.3 新增模型说明(@DrownFish19
    • PR #9906: Deepseek V3 支持动态图直接加载 Float8 参数并进行推理 (@ZHUI)
    • PR #9845: 新增PP-UIE系列模型 @Fantasy-02 i PR #9911 & PR #9913: PP-UIE 相关文档更新(@DrownFish19
  • Tokenizer 改进
  • Unified Checkpoint 相关:
    • PR #9540: 修复加载master weight PR #9523: 修复缺失key问题。
    • PR #9669: 统一检查点的 Bug 修复 PR #9935: 针对忽略 merge optimizer 时直接加载参数的问题进行修复
    • PR #9741 & PR #9821: 修复专家并行支持问题
  • MergeKit 功能增强与优化
    • 新增功能与优化
      • PR #9561: 新增 mergekit_with_sparsify 功能,支持稀疏化合并(@Mangodadada)。
      • PR #9702: 优化 MergeKit 的 GPU 支持,提升处理效率(@Mangodadada)。
      • PR #9811: 添加 LoRA(低秩适配器)合并功能,扩展模型融合能力(@lugimzzz)。
    • 工具更新与维护
      • PR #9885: 对 MergeKit 工具进行代码更新与维护,优化整体逻辑。
    • 日志与调试支持
      • PR #9948: 添加日志记录功能,增强调试与过程追踪能力(@lugimzzz)。
  • 低资源特性优化
    • PR #9804: 添加 use_fused_linear_cross_entropy 支持,减小显存。加入 pre_divided_factor 避免FP16溢出。
  • 文档更新、其他:

2. LLM 训练更新

3. Inference 更新

4. AutoParallel / 分布式训练更新

5. CI、文档、Benchmark 及测试脚本更新

6. NPU/XPU 及硬件相关更新

7. Bug 修复、性能优化及其他改进

8. 环境/依赖及版本兼容更新

  • requirements 及安装更新
  • Python 版本兼容性
    • PR #9853: 解决类型注解在不同 Python 版本下的兼容性问题(@zty-king

What's Changed

New Contributors

Full Changelog: v3.0.0-beta3...v3.0.0-beta4