12月2日,DeepSeek发布白皮书V3.2。在这篇文章中,他们做了一些不寻常的事情。它明确指出,大规模开源模型与闭源模型之间的性能差距正在拉大,而不是缩小。这是基于大量实测数据的冷静判断。 1 不平等现象确实在加剧。 2024年,当DeepSeek、Qwen、GLM等开源模型相继发布时,社区充满了乐观情绪。 “延迟八个月”的说法广为流传,许多人认为开源正在赶上闭源。但到了 2025 年,情况将会发生变化。DeepSeek 在文章引言中坦言:“近几个月出现了明显的分化。随着开源社区的不断进步,专有闭源模型的性能提升速度明显加快。因此,两者之间的差距正在扩大而不是缩小,闭源系统呈现出明显的差距。”这一观察是有数据支持的。本文在多个基准测试中比较了 DeepSeek V3.2 与 GPT-5 和 Gemini 3.0 Pro 的表现。在 MMLU-Pro(多学科知识测试)中,DeepSeek V3.2 取得了 85.0 的成绩,GPT-5 取得了 87.5 的成绩,Gemini 3.0 Pro 取得了 90.1 的成绩。 Diamond(研究生水平科学问题)测试中,三者分别获得了82.4、85.7和91.9的成绩,更明显的差距体现在HLE(Human Last Exam,一项非常困难的文本推理测试DeepSeek V3.2得分为25.1,GPT-5得分为26.3),3.0 Pro得分为37.7。值得注意的是,DeepSeek V3.2已经是目前最强大的开源模型,领先大多数开源模型对比,但即便如此,在需要深度的场景下,各大开源模型之间仍然存在明显差异。推理和复杂任务处理。 1为什么不平等现象日益加剧?三个结构问题论文使用系统分析来识别限制开源模型执行复杂任务的能力的三个主要缺陷。这些不是表面问题,而是深层次的结构性困境。第一个问题是在架构层面。开源模型一般依赖于传统的基本注意力机制,在处理长序列时效率非常低。该论文指出,对这种架构的依赖“极大地限制了长序列的效率,并对可扩展部署和有效的后期训练构成了主要障碍”。虽然闭源模型已经在探索更高效的注意力机制,但开源模型仍然使用五年前的技术架构,这本身就是一个重大缺陷。第二个问题是资源投入的差距,特别是在后期培训阶段。后训练是转型的关键环节模型从“说话”到“思考”,需要强化学习来让模型推理、使用工具并学习遵循复杂的指令。论文显示,DeepSeek V3.2 的训练后计算预算是训练前成本的 10% 以上。众所周知,预训练本身就是一项非常昂贵的投资,大多数开源模型的训练后预算可能不到1%。资源的投入直接导致各代之间性能的差异。第三个问题是人工智能代理功能的滞后。在现实应用场景中,开源模型的泛化能力和指令理解能力明显落后。本文件列出了三个主要的代理评估基准。在MCP-Mark中,DeepSeek V3.2的得分为45.9,Gemini 3.0 Pro为51.0。在MCP-Universe中,第一个是80.3,第二个是87.9。在十项全能中,差异更加明显。这些数字反映了弥补开源模型在复杂多轮交互、工具调用、长期规划等场景下的缺点。该论文的结论是,“开源模型在泛化和命令跟踪能力方面表现出明显的延迟,这阻碍了其在现实世界实施中的有效性。”这是一个诚实而残酷的判决。 1DeepSeek的回应:技术方向的根本性转变 在认识到问题之后,DeepSeek在三个轴上进行了根本性的技术创新,而不是简单地积累参数或增加数据量。在架构层面,DeepSeek引入了DSA(DeepSeek稀疏出勤)机制。传统注意力机制的计算复杂度为O(L²)。如果序列长度增加一倍,计算量就会增加四倍。 DSA通过“闪电索引器”快速计算出每个token的重要性得分,然后只选择最重要的k个kens 参与注意力计算(论文中 k = 2048),将复杂度从 O(L²) 降低到 O(L × k)。即,在上下文长度为 128K 时,DSA 显着降低了推理成本,且性能损失很小。更令人惊讶的是,采用传统注意力机制的V3.2在AA-LCR(长文本推理基准)和Fiction.liveBench(小说理解测试)上的表现甚至比V3.1还要好。这说明DSA在某些场景下不仅速度快而且质量高。 DeepSeek 在资源投资方面做出了非凡的决定。该文件明确指出:“近几个月来,性能的提高一直与强化学习训练预算的增加相关,超过了预训练成本的 10%。”这个数字在开源社区中被广泛使用,但极为罕见。具体来说,DeepSeek 使用数学、编程。我们在六个主要领域训练专家模型,包括编程、推理和代理,每个领域大规模强化学习分别下雨了。在持续预训练阶段,模型使用9437亿个token(上下文长度小于128,000)进行训练,然后使用GRPO(组相对策略优化)算法进行混合训练,集成了推理、代理和人类协调三类任务。在智能体改进方面,DeepSeek开发了系统的任务合成流程。他们合成了 1,800 多个不同的环境和 85,000 条复杂的轨道,涵盖了各种现实世界场景。其中包括 24,667 个代码代理任务、50,275 个搜索代理任务、4,417 个一般代理任务和 5,908 个代码解释器任务。这些合成数据不是随机生成的,而是通过冷启动阶段学习一致的推理和工具使用模式,并在扩展阶段系统地生成场景。e 高质量的训练。效果显着。在代理相关测试中,DeepSeek V3.2 明显缩小了缩小了与闭源模型的差距,在MCP-Universe上取得了80.3%的成功率。虽然仍低于 Gemini 的 87.9%,但已经是开源模型中表现最好的了。该论文的结论是:“DeepSeek V3.2 代表了代理场景中的一种经济高效的选择,并显着缩小了最先进的开源模型和闭源模型之间的性能差距。”论文指出:“如果说 Gemini 3.0 展示了预训练持续扩展的可能性,那么 DeepSeek V3.2-Speciale 则展示了强化学习在大规模上下文环境中的可扩展性。其含义很明确:闭源巨头拥有海量的预训练资源,但开源可以找到自己的路。”通过更高效的架构和更科学的后训练,用更少的资源实现类似的结果。 “这可能是唯一的了。开源AI如何生存:不正面争夺资源,而是通过技术路线争取创新”。至少这一次,DeepSeek证明了这条路是可能的:https://arxiv.org/html/2512.02556v1 主持人:周华祥 让我们点击“爱”。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(若包含图片或视频)由仅提供信息存储服务的社交媒体平台网易号用户上传并发布。