当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文

9个月前 (07-31)Deepseek最新资讯564

  这次ACL 2025规模空前,总投稿量达到8360篇,相较于去年的4407篇几乎翻倍,竞争异常激烈 。

  简单来说,他们提出的原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,直接把长文本处理速度提升了11倍。更厉害的是,性能不仅没降反而还超越了传统的全注意力模型。

  一作袁境阳在会上发表演讲,透露这项技术可以把上下文长度扩展到1百万tokens,将被应用到下一个前沿模型中。

  结合论文发表于DeepSeek-R1推出之后,实验设置中也提到使用了DeepSeek-R1的蒸馏数据来微调了新的模型。

  长久以来,大语言模型处理长文本就像是戴着镣铐跳舞。传统的全注意力机制计算复杂度随序列长度呈平方级增长,处理64k长度的文本时,注意力计算竟然要占到总延迟的70-80%。

  这篇论文的解决思路很巧妙:既然不是所有词之间的关系都同等重要,为什么不让模型学会”抓重点”呢?

  在实际测试中,处理64k长度序列时,NSA在解码、前向传播和反向传播的全生命周期中都展现出惊人的速度优势。

  解码阶段速度提升11.6倍,前向传播提升9倍,反向传播也有6倍的加速,无论是模型推理还是训练,都能获得实实在在的效率提升。

  在通用基准测试中,采用NSA预训练的27B参数模型在9个评测指标中有7个超越了全注意力基线。特别是在推理相关的基准测试上,DROP提升了0.042,GSM8K提升了0.034,显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。

  长文本处理能力的测试结果更是亮眼。在64k上下文的”大海捞针”测试中,NSA在所有位置都实现了完美的检索准确率。在LongBench基准测试上,NSA取得了0.469的平均分,不仅超越了全注意力基线(+0.032),更是大幅领先其他稀疏注意力方法。

  特别值得一提的是,在需要复杂推理的多跳问答任务上,NSA相比全注意力分别提升了0.087(HPQ)和0.051(2Wiki);在代码理解任务(LCC)上提升了0.069;在段落检索任务(PassR-en)上提升了0.075。

  他们用DeepSeek-R1的数学推理数据对模型进行微调,然后在美国数学邀请赛(AIME 24)上测试。

  结果显示,NSA-R在8k上下文设置下的准确率达到0.121,而全注意力模型只有0.046;即使在16k上下文下,NSA-R仍然保持0.146的准确率,远超全注意力的0.092。

  研究了大型语言模型的“弹性”,指模型经过对齐训练(让模型符合人类价值观、减少有害输出)后,很容易因为后续的微调而变回预训练时的状态,就像弹簧被拉伸后会反弹一样。

  这意味着现有的对齐方法可能只是表面上改变了模型,不够稳固。未来需要更有效的对齐技术,才能让模型真正稳定地符合人类需求,尤其是在开源模型中,要避免恶意微调轻易破坏安全机制。

  研究了大模型“公平性” 上的一个新视角 “差异感知”。简单来说,就是模型应该在合适的场景下对不同群体做出区分,而不是一味地 一视同仁。

  研究发现那些在传统公平性测试中表现好的模型,在 “差异感知” 上得分并不高;模型能力越强(比如 MMLU 分数越高),情境感知能力越好,但差异感知能力未必提升;现有的 “去偏见” 方法(比如提示模型 “保持无偏见”)反而会让模型更 无视差异,甚至把正确答案改错。

  这篇论文指出大模型生成回答时的采样机制与人类决策类似,包含描述性成分(反映概念的统计常态)和规定性成分(隐含的概念理想状态)。

  研究通过实验验证,无论是新创概念还是现有概念(涵盖 10 个领域的 500 个概念),LLMs 生成的样本都会偏离统计平均值,向其认为的 “理想值” 偏移,且这种现象在 15 种不同模型中均显著存在。案例研究显示,这种偏向可能导致医疗等领域的有偏决策,引发伦理问题。

  特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

  中共中央政治局召开会议 决定召开二十届四中全会 分析研究当前经济形势和经济工作 中共中央总书记习近平主持会议

  中共中央政治局召开会议 决定召开二十届四中全会 分析研究当前经济形势和经济工作 中共中央总书记习近平主持会议

标签: deepseek

“DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文” 的相关文章

2月11日DeepSeek预测:马刺vs湖人,文班亚马率队客胜,詹姆斯独木难支

2月11日DeepSeek预测:马刺vs湖人,文班亚马率队客胜,詹姆斯独木难支

  西部强强对话即将在斯台普斯中心上演,目前排名西部第二的马刺(36胜16负)将客场挑战第五的湖人(32胜19负)。本场比赛不仅是季后赛卡位战的关键战役,更是检验两队成色的试金石。...

DeepSeek预测:巴黎圣日耳曼VS朗斯,姆巴佩缺席,内维斯能否延续神勇?

DeepSeek预测:巴黎圣日耳曼VS朗斯,姆巴佩缺席,内维斯能否延续神勇?

  法甲第4轮即将上演一场焦点战,领头羊巴黎圣日耳曼将在王子公园球场迎战排名第5的朗斯。两队目前都保持全胜战绩,巴黎圣日耳曼以3战全胜积9分领跑积分榜,朗斯则以2胜1负积6分紧随其后。...

ChatGPT三周年遭DeepSeek暴击,23页技术报告藏着开源登顶的全部秘密

ChatGPT三周年遭DeepSeek暴击,23页技术报告藏着开源登顶的全部秘密

  :主打性价比与日常使用,推理能力达到GPT-5水平,比Kimi-K2-Thinking输出更短、更快且更省成本,并首次实现「边思考边用工具」。官网、APP、API均已升级到该版本,适用...

429元 诺基亚宣布HMD 3210巴萨版上市:巴萨Logo深度定制 支持Dee

429元 诺基亚宣布HMD 3210巴萨版上市:巴萨Logo深度定制 支持Dee

  HMD 3210AI巴萨版搭载Deepseek的AI助手,可通过AI助手询问职场、生活、学习等方面问题。   HMD 3210AI巴萨版采用2.4英寸IPS屏,配备2...

DeepSeek预测:伯恩茅斯vs切尔西!蓝军客场碾压樱桃军?塞梅尼奥vs内托谁

DeepSeek预测:伯恩茅斯vs切尔西!蓝军客场碾压樱桃军?塞梅尼奥vs内托谁

  英超第15轮即将迎来一场颇具看点的对决——排名第14的伯恩茅斯坐镇活力球场迎战第4名的切尔西。目前伯恩茅斯积19分(5胜4平5负),距离降级区有8分优势;而切尔西则以24分(7胜3平4...

DeepSeek将发布具备强劲编程能力的下一代旗舰AI模型

DeepSeek将发布具备强劲编程能力的下一代旗舰AI模型

  格隆汇1月9日|据两位知情人士透露,中国AI初创公司DeepSeek预计将在未来几周内推出其具有强大编程能力的下一代AI模型。这款名为V4的新模型是DeepSeek在2024年12月发...