首页 > 财经数据 > 财经数据 > 扩散语言模型新发现:其计算潜力正在被浪费?

扩散语言模型新发现:其计算潜力正在被浪费?

发布时间:2025-10-31 17:10:01

按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑。其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。

和自回归(AR)语言模型不同,MDLM 的训练目标是随机遮蔽序列中的若干位置,模型学习去 in-fill(填充)这些被遮蔽位置。这样训练出来的模型存在诸多优势,如支持任意顺序解码、多 token 并行解码等。此前有研究表明,MDLM 的这些优势使其在数独等逻辑谜题上的表现得到显著提升。

然而,最近的一篇论文有了一些意外发现:在数学和编码任务中,任意顺序算法的性能往往不如从左到右采样,或者表现与之相似,而标准的多 token 解码会显著降低性能。即使仅在两个 token 上进行并行解码,模型在主流基准任务上的性能也会显著下降。



使用 MDLM 进行从左到右的采样是一种适用于推理和编码的高效采样算法。如果没有 [Arriola et al., 2025] 提出的块大小(block sizes)来强制形成半自回归(AR)的从左到右结构,任意顺序会显著影响性能。



MDLM 能够并行生成多个固定 token,但这会降低准确性。作者使用块任意顺序熵解码,并行解码 1 个、2 个、4 个 token。可以看到,除数独外,在所有任务中,即使并行解码两个 token 也会导致性能显著下降。

这一结果引发了一个问题:既然 MDLM 在训练时投入了大量额外计算资源以建模所有被掩码位置的联合分布,那么这些额外的计算是否真的物有所值?



为了回答这个问题,研究者探究了如何将这些计算资源重新利用为有意义的推理与采样能力。他们证明,MDLM 提供了对所有掩码位置的条件分布的访问权限,并具备填充(in-filling)能力,这一特性解锁了传统 NTP 模型无法轻易实现的新型采样与后训练(post-training)机制。

首先,研究者展示了 MDLM 的填充能力如何开启新的模型提示范式。在本文中,他们提出了「提示即填充」(prompting-as-infilling) 的方法。与 NTP 模型仅能在序列起始位置添加提示不同,这种方法允许在多个位置添加由用户指定的上下文。

更具体地,他们提出了「推理即填充」(reasoning-as-infilling) 的框架。在该框架中,研究者预先构造了一个显式的「推理模板」(reasoning template),其中包含特定的推理位置与答案位置(参见图 1)。这一模板结构使得模型能够基于给定的推理预算和格式,对推理轨迹进行采样。

财经数据更多>>

智能体手机,抢跑 2026 的「方法论」 “恐怖数据”驾到 黄金、美元指数、日元、欧元、英镑、澳元和人民币技术前景分析 东鹏特饮A+H股双上市、TikTokShop强化风控、X投票改进 新款小米SU7续航曝光:三种电池版本,CLTC最高902km 2025年陕西省级人才计划拟入选名单公示 Seedance2.0引爆应用端,还有哪些方向值得重视?周二收盘点评 渭滨50万元电子消费券正式开抢!满500减100、满200减50...... W4周排名出炉,苹果、华为位置互换,小米、荣耀位置也互换 涨价潮下的“生存游戏”:谁能率先穿越周期? 4年前机型将喜提ColorOS 16正式版:还能再战 曦望联席CEO王勇:启望S3研发完成,年中流片年底回片量产 商汤开源多模态自主推理模型SenseNova-MARS 字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争 微信内公众号图标变了:从“一页”变成了“两页” 中国互联网大厂的 AI 时代船票争夺战已经开始了 字节扣子 2.0 发布,我们深挖了它这两年的生长真相 短剧红利狂欢下:屏幕里手握数亿元的“霸总”,屏幕外追要万元欠薪? 泰山啤酒重整:鲜啤王牌,何以渡劫? 2025年新建商品房销售额83937亿元 厂商称被冒名代工名创优品围巾?名创优品暂无回应 五菱大SUV卖6.28万,配1.5T+四轮独悬,轴距超2米8,又要火了! 解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估 日产大5座SUV,NX8实车现身,车长4870mm,两种动力,上半年上市 买车等等!比亚迪26年有超13台新车值得等:汉唐9系叫啥合适? 比黄金还猛!白银价格飙升150%,三个被忽视的原因非常重要 长城证券汪毅:2026年看好AI应用领域 科技有AI,连接全球:海信家电参展CES 2026,定义智慧生活新图景 拼多多内测“百亿超市”,低价再拓新场景 真我 Neo8 参数曝光,骁龙 8 Gen5 、8000mAh电池 2026年第一款真全面屏来了!红魔11 Air官宣