当前位置：首页 > DeepSeek技术交流 > 正文内容

DeepSeek-R1 再进化，这次的更新好强啊

1年前 (2025-06-04)DeepSeek技术交流670

R2没等到，但 DeepSeek R1 小升级据说也很强？

又被 DeepSeek 偷袭了！

业内苦等的 R2 模型迟迟未到，结果 DeepSeek 却悄然出手：

DeepSeek R1 摇身一变，成了 DeepSeek-R1-0528！

依然是开源、依然赶在节前，这次的更新不改大版本号，只低调地加上日期，延续了 DeepSeek 一贯的命名套路，就像两个月前的DeepSeek-V3-0324。

别看名字没变，这波 R1 版本的升级可不简单，特别是在“复杂推理”“前端开发”“幻觉降低”等方向，带来了实打实的进化。

这次的 DeepSeek-R1-0528 还是沿用了 2024 年 12 月发布的 DeepSeek V3 Base 模型，只不过这次后台“砸”了更多算力，让它能像人一样多想一步、再多想一步。

打个比方，用“tokens”来衡量它的“思考量”：

同样是做 AIME 2025 测试，旧版 R1 平均每题只要 12K tokens 就交卷，新版 R1-0528 则要跑到 23K tokens 才满意。

也就是说，DeepSeek-R1-0528 会把题目拆得更细、更透。

思考用料足了，答案自然更准：准确率从原来的 70% 一口气飙到了 87.5%。

有网友实测，新版 R1-0528 连续思考一个复杂问题能跑上 25 分钟。

似乎为了提升模型的深度思考能力，DeepSeek-R1-0528 有意拉长了大模型的思考时长。

经典物理模拟测试中，DeepSeek-R1 新旧版本的对比

不过到底值不值，还得看你怎么用：

毕竟一个问题花上半小时，即便结果再完美，也难免等得心痒痒。

但相应地，思考更深了，编程和推理能力也就跟上来了。

在 LiveCodeBench 基准测试里，DeepSeek-R1-0528 的成绩已经能和 o3-mini（High）和 o4-mini（Medium）相媲美，甚至在某些场景下超越了 Gemini 2.5 Flash。

为了测试新版 R1-0528 在物理世界的推理能力，有网友拿同一句提示，让它们生成一个页面：R1-0528 一次性输出了 728 行代码，而 Claude 4 Sonnet 只给出了 542 行。

老狐仔细对比后发现，新版 R1-0528 在细节处理上更精致，无论是橙色球表面的光影反射，还是砖块墙被破坏后的不规则倒塌，都稳赢 Claude 4 Sonnet。

而在数学推理方面，不少网友提到，DeepSeek-R1-0528 是目前唯一一个能持续稳定地正确回答“ 9.9 - 9.11 等于多少？”的模型。

不仅如此，有网友让 DeepSeek-R1-0528 搭建一个单词评分系统，结果只用一次提示就能生成前后端文件，直接跑起来、根本不用调试。

要知道，之前只有 Open AI 的 o3 模型能做到这么稳定的输出，现在新版 R1-0528 也成功追了上来，成了第二个达到这种水平的模型。

看完这些测试，老狐对官方的说法更加信服：

DeepSeek-R1-0528 在数学、编程和通用逻辑等多个测评中，不仅稳坐国内领先的位置，还紧追国际顶尖模型 o3 和 Gemini 2.5 Pro 的表现。

对于 AI 模型来说，编程和推理能力固然是核心，但像 Chat GPT 和 Gemini 这样的国外模型，面对中文的复杂语境，有时会显得“水土不服”。

相比之下，DeepSeek 作为本土 AI，这次更新在语言对话方面下足了功夫，更贴合咱们国人用户的需求。

先说 AI 的老毛病：“幻觉”，用户苦 AI 幻觉久矣，DeepSeek-R1-0528 在这方面进步不小。

以前，旧版 R1 在改写润色、总结摘要、阅读理解时，总爱“脑补”些不靠谱的内容。

新版 R1-0528 则稳了不少，幻觉率直接降低了 45%～50%，输出内容靠谱多了，不用担心它“瞎编”了。

而在创意写作方面，DeepSeek-R1-0528 的表现也更上一层楼了。

相比旧版 R1 常见的“卡壳”现象，用新版 R1-0528 输出论文、小说、散文时，基本都能一气呵成，不仅逻辑顺畅，情节也很自然，再也不用大删大改了。

有一说一，看完 DeepSeek-R1-0528 写的小说，老狐的心情那叫一个复杂。

大模型越来越卷，这写作水平真让人瑟瑟发抖，难道连写小说的饭碗也要被抢了？

总的来说，这次更新，DeepSeek 还是一如既往地“低调内卷”。

表面看似只是个小升级，但掰开了看，每个细节都是硬活儿。

不管是和旧版 R1 比，还是和别家大模型比，DeepSeek-R1-0528 的表现都非常能打。

当然，也不是所有人都买账。也有网友吐槽这次更新“雷声大雨点小”，觉得 DeepSeek-R1-0528 还是有点“名不副实”。

不过，更多人还是抱着期待的态度。作为国产 AI 的代表，网友们更希望 DeepSeek 能越做越强，真正撑起“国产之光”的牌面！

老狐倒觉得，就算不谈技术硬核，不提民族情怀，这次 DeepSeek R1 的更新依然值得点赞。

毕竟，AI 的终极意义，不就是让每个普通人都能更轻松地触摸星辰大海吗？

本文来自微信公众号“科技狐”（ID：kejihutv），作者：老狐，36氪经授权发布。

标签: DeepSeek常见问题 DeepSeek技术交流

返回列表

上一篇：Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

下一篇：美的空调怎么样？DeepSeek看起来是真的香！

“DeepSeek-R1 再进化，这次的更新好强啊” 的相关文章

周鸿祎：DeepSeek创始人不屑做toC，专注AGI技术，流量下滑不代表失败！

2025中国互联网大会期间，360集团创始人周鸿祎谈及DeepSeek流量下滑情况。他表示，其实梁文锋并没有想认真做一个toC的APP。在DeepSeek流量暴涨时，网站速度“慢得要死”，梁文锋却不在...

DeepSeek关键词优化中的内容质量提升

在当今信息爆炸的时代，关键词优化已成为企业网络营销中不可或缺的一环。而随着搜索引擎算法的不断演进，单纯依靠关键词堆砌已经难以满足企业提升内容曝光和品牌影响力的需求。内容的质量，逐渐成为影响搜索排名和用...

AI钉铛智造深度融合DeepSeek:构建制造业生产智能服务生态共同体

2025 年,人工智能正以不可逆转之势重构全球产业版图,中国工业智能化进程在此浪潮中迎来关键突破。在这一历史性节点上,红壹科技于 1 月 2 日正式发布自主研发的工业大模型 “时光基 AI”,其成功兼...

deep seek自我评价文章：DeepSeek开始“装睡”？让百万用户心凉

导语：deep seek现在已经受到越来越多的吐槽，当我询问deep seek怎么看待这一问题的时候，它居然写了这么一篇文章！看来，它也有点看不起自己。是谁阉割deep seek呢？评论区见。曾几何时...

郑州deepseek搜索结果aiseo哪家好

在郑州寻找靠谱的AI搜索优化服务商时，不少企业主会关注DeepSeek这类新兴平台的流量获取效果。作为深耕数字营销领域的观察者，我梳理了当前市场的技术流派和实战表现，或许能帮你避开选择弯路。1.技术流...

燧原科技发布DeepSeek一体机

燧原科技在WAIC大会上展示了其最新的DeepSeek一体机。该产品以低门槛和高效率的特点吸引了众多参观者的目光，成为会场的焦点。燧原科技表示，这款一体机旨在降低人工智能技术的应用门槛，同时提高企业的...