“2023年初,一些大公司表示世界上只会有几款大型机型,就像IBM总裁在1943年曾说过的那样,世界需要的大型机不会超过五台。”今年 11 月,我们与清华大学、开源组织 OpenBMB 和 Wall-Facing Intelligence 的合作登上了《Nature Machine Learning – LLMS Density Law for Large Models》封面:每月 3.5 个,模型功率密度翻了一番。该图显示了自 2023 年 4 月以来领先开源模型的功率密度变化。功率密度是基于单位参数/计算能力来衡量模型功率的指标。近年来,大型车型进化的亮点就是“规模法则”带来的力量跃升。大型模型在编程、图形和设计方面已达到或超过人类水平,而 OpenAI 模型的性能也迅速提高。密度定律关注的是如何获得更多的整数使用更少的计算和数据资源更有效地提供情报。对密度目标的追求将加速手机、汽车、机器人等终极智能的发展,推动分布式智能和“大型专有模型”惠及所有人。本次演讲,我们与密度定律研究员、清华大学计算机学院副教授、沃尔智能首席科学家刘志远,以及清华大学博士后研究员、沃尔智能MiniCPM系列文本模型负责人肖朝军,围绕: – 密度定律的背景和核心思想 – 改善人脸密度模型特性的具体方法。 – 强化学习中尚未出现缩放法则。因此,有两个可能的搜索方向。 – 自主学习和分布式智能的未来。到2023年,全国最终算力(主要是手机)将占数据中心算力的12%。次。近几十年来的计算机化本质上是分布式计算能力和分布式信息结构。刘志远认为,基于密度定律的效率增益在此过程中尤为重要。 2023年初,某企业巨头表示,“世界只需要几台大型机型”,正如1943年IBM总裁所说的“世界只需要五台计算机”。完全一样。但未来很可能信息是分布式的,每个人都有自己的代理人。如果模型具备自主学习的能力,设备上的模型就可以根据用户的个人数据不断成长,最终形成“大个人模型”,成为用户的助手。 “摩尔定律”延迟大机型时代:近期中美新机型密集推出,尤其是Gemini 3的受欢迎。非常贵。您对这些新进展有何看法?肖巧君:我们看到两个明显的趋势。菲首先,所有大型机型都改进了“智能代理”功能。直观上我们看到,每次模型发布时,大家都测试代码任务,模型在代理任务上的性能明显提升。其次,正如我们在 Nano Banana Pro 中看到的,Google 多模态模型的文本生成精度非常高,这是以前流行模型很难看到的,只有 GPT-4o 和 OpenAI 才能看到。这开辟了新的扩展方向。我们总是谈论更多的数据、更大的模型和更强大的功能,但多模态数据从未真正带来“智能飞跃”。但现在,这一代“综合自回归”视觉语言可能会带来突破。当然,Gemini 3型号的详细信息尚未公开。无法完全确定当前的功能是由于产品优化还是真正的架构集成。您可能需要考虑更高版本。刘志远:现在如今,几乎每周的进步就相当于我读研究生时一年的进步。总结起来,主要有两点。首先,能力的提高符合“规模法则”。自 2018 年引入预训练模型以来,模型的能力每隔几年就会增强。 – 到 2022 年底,ChatGPT 将使用命令式设置,使其模型能够“理解人类语音”。 – 2024年底到2025年初,强化学习加上大量的后续训练让模型具备了更深入思考的能力。模型变得越来越普遍,并且在某些领域开始接近或超过人类的能力。二是提高能源效率。我们这次提出的“密度定律”本质上是对“一种不断改善容量与成本关系的方法”的定量描述。真正想要改变世界的技术必须努力提高效率,大型模型不断进化同时兼顾性能和成本。慢:一般来说,人们注重的是能力的提升。关于第二个重大议题“提高能源效率”,您最近看到了哪些进展?肖巧君:我们的核心人工智能实验室也在寻求效率。开源方面,Qwen 3、DeepSeek V3.2、Llama 3以及面币自家的MiniCPM系列都有MoE(混合专家系统)、Sparse attend和Efficient attend(更高效的注意力机制)等架构优化。闭源方面,OpenAI推出了Mini系列。谷歌还在Gemini 3之前推出了Gemini Diffusion,声称文本生成速度比其他模型快很多倍,无论是开源还是闭源。无论你是谁,每个人都追求效率,因为资源永远不够。这也适用于OpenAI,这甚至会导致重大分歧,比如伊利亚离职时提到的“缺乏资源”。刘志远:尺度law和密度定律就像大型模型演化的光明与黑暗。这同样适用于上述信息的革命。明确的界限是大型机→小型机→个人电脑→手机→其他智能终端和设备变得越来越小。暗线就是芯片产业的高效进化,或者说摩尔定律。我们提出密度定律,是因为我们想在大模型时代找到“摩尔定律”。下午:模型训练和推理越来越高效是不是很明显?你为什么想做这项特殊的研究?刘志远:我们从2023年底开始这个研究,当时包括2024年,全球主导的话语体系是尺度法则。一些国际组织表示,只有拥有10万个GPU的组织才有资格训练大规模模型。根据这种说法,包括政策制定者在内的许多人错误地认为,文件和规模是唯一的首要原则,这是误导性的。密度定律希望纠正行业说法,并帮助每个人了解效率也很重要。当时,大多数团队的目标是复制 ChatGPT。国家顶级队伍可能会在2023年9月至10月之间完成回放,80B级型号将能够从ChatGPT中受益。下一个自然的选择是选择 GPT-4。预计这将需要约1400亿个模型和数千万元的培训成本。不过,按照目前的速度,2024年上半年至少有5支国家队将达到GPT-4级别。那么如何才能获得投资回报呢?这就是为什么我们专注于“模型风洞”,系统地评估架构、数据和训练策略的效率增益。第一个结果是在 January2024.iCPM-1 时代。以2.4B的参数,我们达到了当时LLaMA-2-13B和Mistral-7B的效果。 2.4B大约是什么m手机就可以做到。这让我们看到技术创新可以显着提高模型效率,我们开始积极投资“大型设备端模型”。我们还想知道这种效率飞跃背后是否存在根本规律。受摩尔定律的启发,我们提出“知识密度”,并于2024年对培训各方面的创新如何提高技能密度进行了系统研究。至少在围墙内,“密度定律”引导我们朝着明确的目标前进。晚间:自 2023 年秋季以来,Face Wall 一直在寻找大型且高效的模型,但为什么它没有像 2025 年 1 月的 DeepSeek R1 那样产生那么大的影响?刘志远:公众正在关注哪种模式更有特色。这通常意味着训练具有数千亿或数万亿参数的非常大的模型。不过,大多数企业仍需要考虑业务影响。 AGI 肯定会在未来 5-10 年内出现。的库rse,你也可以成为互联网时代的Google。因此,公共服务是在云端提供的,但AGI也发生在客户端。最初的设计更适合初创公司的人才和节奏,因为终端侧潜力巨大,但很少有人关注。最近我看到一句很好的话,“别人得到的不一定是你失去的”。提高技能密度的4个环节,强化学习尚未出现Late Scaling Law:密度定律的核心思想是什么?肖朝军:核心不是观测本身,而是目标:模型的密度容量“每3.5个月翻一番”。我们不应该盲目追求模型规模,而应该寻求最大化单一计算提供的智能。尺度定律和密度定律也不冲突。第一个是“计算能力与技能之间的对应关系”。后者是“单位计算能力到英特尔的转化率”第二部分:提高模型特征密度的具体方法有哪些? 刘志远:分为模型架构、数据、学习算法、软硬件协同优化四个部分。密度定律提出以来,一直在尝试定量解释这些维度的影响,并且已经有了一些实证结果。 肖朝军:首先是模型架构。Transformer 主要有两个部分:FFN(前馈网络)和 Atencion (注意力机制)目前的基本共识是FNN需要稀疏的MoE架构,换句话说,FNN的大型“密集矩阵变换”被划分为许多“专家”,并且只有一小部分专家在每次前向计算中活跃,这比激活全局的东西更高效,它证明了MoE即使在la上也能取得很好的结果。大尺度模型。关于注意力机制,今年我们在开源和闭源方面都做了一些效率改进。例子包括Gemini系列的密集注意力+滑动窗口混合注意力架构,Qwen3-Next和Kimi Linear的DeltaNet(线性注意力)混合密集注意力架构,以及DeepSeek最近发布的DSA。所有这些改进都与代理和深度思考的需求驱动的大模型从“短模型”向“长模型”转变的趋势是一致的。代理需要长输入和输出。未来长文本肯定会面向深度思考和代理场景,包含更长的输出。然而,目前对长输出的线性注意力的验证还不够。那么MiniMax为什么支持M1的Lightning Attention呢?主要原因是M2想要专注于代理,但直接使用打字注意力会降低更多性能复杂的代理任务。下午:今年早些时候我们谈到提高注意力时,您说我们应该更加关注代理任务下的长结果。这不是已经是共识了吗?肖朝军:我注意到人们还是习惯把长文本等同于长输入,但思维链、多步推理其实对长结果有更多的需求。例如,代理计划五个步骤。当你走到第五步的时候,你不能忘记第一步。然后回来再试一次。模型需要记住它之前生成的内容。这对于长文本来说是一个新的挑战。 InfLLM 2 于今年 6 月开源,其中包括解决此问题的改进。核心的变化是“本土稀缺性”的实施。在预训练阶段引入稀疏注意力,而不是像第一个版本那样在推理阶段引入。这提供了两个好处。一是你的训练速度会大大加快。其次,短ge 显着降低。 InfLLM 1 在推理阶段有大约 50% 的注意力过载(相比之下,完全注意力为 50%),而 InfLLM 2 在训练阶段的稀疏性低于 5%。这意味着对于小于 128 KB 的上下文长度,您应该只关注 4 到 6 KB 的令牌。我们的运营商也支持长期退出。这种方法在智能体和深度思考场景中更加实用。 After:架构之后,在数据方面,业界是如何提高模型的特征密度的?肖朝军:关于数据,以下两点非常重要。一是合成数据,二是高质量的数据清理和治理。现在几乎每个主要团队都在投资这两个项目。这是因为这两项直接决定了模型能力的上限,也决定了下一阶段能否继续提高密度。刘志远:其实从L0到L0有一系列层次化的通道(流程)L4对应不同的处理阶段。通过收集、跟踪和购买 L0 来获取公关主题。 L1过滤,清理重复数据和垃圾。 L2选择。选择您已确定的其他高质量数据。 L3合成不仅可以处理现有数据,还可以生成世界上不存在的内容,包括重写、增强和任务分配。 L4 验证。使用正式或手动方法确保此级别的数据具有高质量。例如,我们最近使用这个管道对著名的 FineWeb 预训练数据集进行了细化,获得了原始数据量不到 1/10 的版本,称为 Ultra-FineWeb。结果,使用Ultra-FineWeb训练的模型比直接使用FineWeb训练的模型表现更好,训练成本自然降低了10倍。这只是预训练阶段数据管理的效果。这同样适用于锻炼后。无论是SFT(监督微调)还是强化学习,数据合成的质量对模型的上限和效率有很大影响。例如,交通大学刘鹏飞教授最近创作的“Less is More”系列就是利用更少、更精确的数据来实现更强大效果的例子。我们还计划在未来开源这个相对完整的数据治理系统,包括数据样本和整个管道结构。一个更根本的问题是:达到一定熟练程度的“最小数据集”是多少?这个问题也有助于检验智力的本质。下半年:接下来是算法改进,今年的重点是强化学习。我是。肖朝军:是的,但是到现在强化学习还没有明确的标度规律。预准入的升级法则非常明确。拥有数百亿个代币和数十万个训练步骤,有一个稳定的缩放法则可供遵循。目前,在练习强化学习时,大多数人ams只训练几千步。在OpenAI o1白皮书中,一些任务在不到10,000步后就停止了。虽然效果不错,但离实现RL缩放还很远。换句话说,如何才能让强化学习持续稳定?这是整个行业还在探索的一个方向。 Slow:当你说“RL 尚未扩展”时,你到底是什么意思?肖朝军:在业界,“RL 扩展”主要指两个方面:环境是否可扩展以及奖励(激励)是否可验证。前 OpenAI 研究员 Jason Way 认为 RL 的关键是创建一个“不可破解的环境”,让模型可以继续学习,或者不会变得投机取巧。然而,伊利亚认为这样的环境几乎不存在,人类的学习本身并没有在这样的环境中完成。这也对我们如何定义通用人工智能的下一阶段产生影响。说到奖励,唯一真正可验证的奖励是现在是数学和代码。然而,码域中的强化学习目前主要是抵抗竞争问题。实际的软件开发要复杂得多,回报也更难产生。这是 RL 扩展的主要瓶颈。但强化学习至少表明它可以让最优秀的 0.1% 甚至 0.01% 的人完成任何任务,只要他们有足够的数据和反馈。许多团队在数学和编程竞赛中获得了国际金牌。因此,未来,如果企业能够积累足够多的数据,在某个特定的垂直场景下,很有可能利用强化学习来打造该领域的“超级专家模型”。后期:目前,真实商业环境中从RL到B的强化有学习的倾向。例如,Thinking Machines Lab 可能正在探索这个方向。肖乔军:我的意思是,我们以前称之为快速工程,但现在我们称之为奖励。工程或环境工程,这些是新的专业RL 为您带来的产品。但这一步并不是我们真正想要的AGI。人类学习非常高效,只需少量反馈和少量测试就可以学习新任务。目前,强化学习距离这种学习效率还很远。有两种方法可以继续。一是继续攀爬RL。继续扩展环境并增加可验证的奖励,看看随着规模的增加,是否会自然出现更强的泛化能力,就像之前的训练一样。我们正在研究一种更高效的 RL 扩展框架,该框架允许模型在 RL 训练期间充分利用计算能力,并将训练步骤数增加到足够的水平(例如,数万步)。这使得模型能够体验真正的长思考。更先进的是开放域强化学习。它不仅包括数学和代码,还包括诸如“写论文时认为成功的事情”或“当写论文时认为完成的事情”之类的奖励。“规划一个复杂的任务。”这个方向目前还没有成熟的范式。大家是否还在思考如何在开放领域定义奖励和稳定训练?第二是寻找新的、更高效的学习方法。也就是说,通过提高样本效率,让模型更加人性化,能够通过少量的反馈来学习新的任务,而不是依赖大量的人工标注或者大量的环境交互。之后:我们是否可以构建一个具有多种激励的非常复杂的环境?这才是人们真实的环境我们面临的挑战非常多样化,他们也会根据不同的情况和场景改变他们的目标和动机。肖乔军:这很难。这使得人们在现实世界中能够有效地学习。我会自动注意到有什么问题。这是一种微妙的反馈。然而,强化学习要求将反馈离散化为正式奖励,例如+1或-1。我们如何压缩丰富的、连续的、多维的现实世界的奖励反馈?这本身就极其困难。这对应于伊利亚提到的价值函数。为模型提供一个描述“什么是好的、什么是坏的”的价值函数。但构建这样一个价值函数就像构建一个完整的世界模型一样困难。这甚至是“先有鸡还是先有蛋”的悖论。如果你对世界的建模非常好,并且有一个足够强大的奖励模型来评估每个动作,那么奖励模型本身应该已经具有 AGI 难度级别。这与在使用 AGI 进行训练之前恢复 AGI 是一样的。从大型机型到汽车和手机,甚至便携式“个人NAS”——密度定律对行业的反馈和额外影响是什么?刘志远:自DeepSeek-3推出以来,“成本与能源效率”已经成为整个行业的核心关键词。一个有趣的现象是,很多嵌入式智能(embodied AI)领域的朋友特别喜欢引用我们的研究成果,因为终端设备对延迟和功耗非常敏感。在《Nature Machine Learning》发表这篇论文之前,《Nature Communications》上发表了另一篇关于 MiniCPM-V 的论文(注:指论文《GPT-4V-level effective Large-scale multimodal language model for Implements on Edge devices》)。有一个经典的图表解释了密度定律如何与硬件演进相结合,使终端设备能够执行最初在云服务器上运行的模型的功能。具身智能团队最关心的是最终的大脑何时能成为现实。 GPT达到-4V水平时模型参数的大小随着时间的推移迅速减小,但计算量边缘的力量迅速增加。当芯片电路密度(摩尔定律)和模型特征密度(密度定律)两条曲线相交时,以前只能在云端才能运行的大型模型就可以在终端机器上运行。下午:具体时间是几点?刘志远:结合模型容量密度的增长速度和世界顶级芯片厂的工艺路线图,估算最终芯片的算力、缓存等规格,我们预测最终端可以部署参数超过60B的模型,激活大小可以在2030年左右达到80B以上。这是基于当前发展的线性推测,未来有可能产生非线性进展。五年后,我们也许最终也能拥有具有 GPT-4 到 GPT-5 功能的模型。后期:各种终端设备的进度如何?目前,汽车、手机、电脑应该是五大出行工具。第一波浪潮,也是几家实施最终人工智能的公司的重点。刘志远:是的,今年车型量产速度很快。汽车拥有很大的空间,计算能力和能耗的限制相对较小。我们已经与长安马自达、吉利的部分车型进行了合作,明年将有超过六款车型集成到我们的车型中。之后:大规模语言模型和多模态模型现在在汽车中到底能做什么?与之前的语音助手相比,有哪些新的体验?刘志远:主要是智能座舱内的多模态交互,包括识别车内外环境、识别并理解坐在不同位置的多个乘客等。其实每个车企的功能定义完全不一样。有的高端舱房有100多个特色点。后期:目前AI技术需要定制化开发用于汽车等终端时的选择。这关系到该服务的业务效率和可扩展性。当一个大模型需要容纳这么多功能点时,还需要进行哪些额外的开发?刘志远:主要是调整,我们自己做。它强调标准化,拥有完整的SFT工具链和数据合成规范,使其效率极高。后记:接下来在手机上,AI和最终的模型将如何在小型硬件上发展?像眼镜这样的梦想?刘志远:我们认为2027年是一个重要的里程碑,我们可以在手机上实现大规模的强化学习。这意味着任何人都可以利用自己的数据为这个模型提供一个学习环境,渐渐地这个模型就可以成为你个人的“专属大型模型助手”。至于眼镜,它们不需要与大型模型配合使用,它们更像是手机外围设备。换句话说,通往未来的大门不是手机,而是类似于便携式家庭NAS(计算和存储服务器)的便携式个人计算设备。眼镜、耳机、手表或各种新型传感器设备以各种方式捕获数据并将其提供给个人计算设备以支持模型的持续学习。智能将以分布式的方式存在,AGI的原型将是“AI创造AI”。后期:电流密度定律解释了现有预训练范式的效率增益。目前,业界正在讨论除了训练前和训练后强化学习之外,该方法的下一个重大改进。您想重点关注和探索的方向是什么?肖巧君:我觉得可以叫自我学习、自我进化、持续学习。今天有很多术语。背景就如我上面提到的。强化学习对于个体任务来说非常强大,但通用性不够。未来的模型首先必须是良好的学习者。它驻留在您的设备或其他设备上设备,并可以根据您的需求不断了解您擅长或需要执行哪些任务。这就像招实习生一样。编写代码、撰写手稿并进行研究。如果你教他们如何做事,他们就会逐渐掌握这些技能。然而,之前的训练和现在的强化学习无法做到这一点,因此全局模型发挥作用,我们希望为模型提供足够的反馈环境。强化学习之父 Rich Sutton 首次表示,目前的大规模模型无法走向 AGI。从根本上来说,基于大量数据的学习可能会阻碍更有效地获取新技能。接下来是具有自学习能力的模型之间的协作。例如,有些人训练了 AI Researcher 专家模型,而另一些人则训练了 Infra Expert 模型。我们如何共同努力加速模型开发?未来的最高境界就是创造能力。例如,像爱因斯坦这样的科学家人们不仅能从人们定义的符号中学习,而且有能力在符号之间创建新的关系,甚至新的符号系统。简而言之,自主学习→能够自主学习的AI之间的合作→创新。刘志远:它是一条明线,但背后还有一条隐藏线,这就是智能在设备中的分布。据中国信息通信研究院统计,2023年,全国终端(主要是手机总数)计算能力将是数据中心计算能力的12倍。虽然云端的计算能力看似巨大,但它无法支持全国超过10亿台设备同时运行。因此,近几十年来的计算机化本质上是分布式计算能力和分布式信息结构。我认为智力也是如此。 2023年初,有巨头表示:“我“rld 只需要几个模型大”,与 1943 年 IBM 总裁所说的一模一样:“世界只需要五台计算机。”但未来,智能很可能是分布式的,每个人都会有自己的智能。如果模型具备自主学习的能力,设备上的模型就会根据用户的个人数据不断成长,最终形成“个人大模型”,成为最懂用户的助手。云端有很多“专家模型”,包括美团理解外卖的模式、滴滴理解出行的模式、抖音理解内容的模式,客户端和云端的模型协同,形成了一个“智能体”。之后:明年你最想观察和测试什么问题?肖朝军:强化学习有哪些形式?第一个“AGI 格式”会是什么样子?其实,这是一个问题。首先,这些自主学习、协作、创造能力属于什么模式或产品形态?我的直觉是,AGI的形式对于C产品来说可能不是面向用户的,对于B系统来说是面向生产的。例如,如果你要求我们“创建一个自治模型”,我们可以生成数据、搭建环境、训练模型、优化架构,最后将模型部署到目标的算力上。换句话说,早期的 AGI 不需要知道一切,可以“自己创造人工智能”。刘志远:从历史的角度来看,第一次工业革命的特点是“机器生产机器”。智能时代的本质是“AI创造AI”。自主学习是“人工智能做人工智能”的第一个原型,允许模型在其环境中独立成长。我期待看到一个真正具有此功能的系统明年或后年的能力。标题图片来源:《黑衣人》(吊坠内的银河系用 Nano Banana Pro 增强)
特别提示:以上内容(包括图片、视频,如有)由自媒体平台“网易号”用户上传并发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。