当前位置:首页 > Deepseek最新资讯 > 正文内容

实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算

8个月前 (08-20)Deepseek最新资讯455

  网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋回应」。尽管没有等到 DeepSeek R2,但 DeepSeek 今天还是正式上线并开源了新模型 DeepSeek-V3.1-Base。

  相比奥特曼今天凌晨接受采访时还在画着 GPT-6 的大饼,DeepSeek 新模型的到来显得相当佛系,连版本号都像是个「小修小补」,但实际体验下来,这次更新还是给了我不少惊喜。

  为了测试 V3.1 的长文本处理水平,我找来了《三体》全文,删减到 10 万字左右,然后在文中偷偷塞了一句八竿子打不着的话「我觉得烟锁池塘柳的下联应该是『深圳铁板烧』」,看看它能否准确检索。

  没有出乎太多意外,DeepSeek V3.1 先是提示文档超出限制,只读取了前 92% 的内容,但依然成功找到了这句话。更有意思的是,它还贴心地提供了文学角度的经典下联推荐:「焰镕海坝枫」。

  网友已经已经抢先测试它在编程基准测试 Aider Polyglot 的得分:71.6%,不仅在开源模型中表现最佳,甚至击败了 Claude 4 Opus。

  我们用经典的六边形小球编程题做了测试:「编写一个 p5.js 程序,演示一个球在旋转的六边形内弹跳的过程。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。」

  V3.1的表现相当给力,生成的代码不光搞定了基础碰撞检测,还自动补全了转速、重力之类的细节参数deepseek。物理特性逼真到小球会在底部略微减速。

  接着我们加大难度,让它用 Three.js 制作交互式 3D 粒子星系。基础框架搭得挺稳,三层设计(内球体、中间圆环、外球体)也算完整,但UI审美嘛……怎么说呢,有种神鬼二象性的感觉,配色方案略显花里胡哨。

  继续挑战更复杂的任务。们让它造个沉浸式3D宇宙,要有旋转物体、变形效果、发光弧线,还得加上时间切换、主题转换的交互按钮,点击控制也确实能触发不同特效。

  最后一关,让它用 Three.js 搞个交互式 3D 网络可视化,要求包含用户触发的能量脉冲动画,外加主题切换和密度控制功能。整体下来,表现还是过得去的。

  「有一牧场,已知养牛 27 头,6 天把草吃尽;养牛 23 头,9 天把草吃尽。如果养牛 21 头,那么几天能把牧场上的草吃尽呢?并且牧场上的草是不断生长的。」

  虽然 DeepSeek V3.1 没有采用苏格拉底式的启发教学,但它的解答逻辑清晰、步骤完整。每一步推导都有理有据,最终给出了准确答案。这种扎实的数学功底,着实令人印象深刻。

  面对「两把武器对比,1~5 攻击 VS 2~4 攻击,哪把更厉害?」这样的问题,一般的回答可能止步于平均伤害计算。但 DeepSeek V3.1 思考得更为周全,引入了伤害稳定性的概念,运用方差进行深入分析。

  当问及「冰岛有蚊子吗?」这样的小众地理问题时,在未开启搜索功能的前提下,DeepSeek V3.1 的回答质量明显超越了 GPT-5。这不仅体现了其广博的知识储备,更显示了精准的信息提取和整合能力。

  最近基孔肯雅热疫情流行,到处灭蚊蚊蚊蚊蚊蚊蚊蚊,那么我很好奇,冰岛有蚊子吗?注意,我没开搜索功能,就回答的质量来看,DeepSeek V3.1 的回答明显要比 GPT-5 胜上一筹。

  「懂者得懂其懂,懵者终懵其懵,天机不言即为懂,道破天机岂是懂? 懂是空非空非非空的懂,不懂是色不异空空不异色的不懂:懂自三千大世界来,不懂在此岸与彼岸间徘徊。懂时看山不是山是懂,不懂时看山是山的懂。懂者以不懂证懂,懵者以懂证懵,你说你懂懂与不懂之懂? 你怎知这懂的背后没有大不懂? 凡言懂者皆未真懂,沉默不语的懂,方是天地不言的大懂不懂的懂是懂,懂的不懂也是懂,此乃懂的最高境界–懂无可懂之懂的真空妙有阿!」

  当我还在用逻辑硬啃这段文字时,DeepSeek 反而在劝我别掉进「道破天机岂是懂」的陷阱——它本身就是对理性傲慢的警告,邀请你跳出文字游戏,直观内心。

  当主流AI都在代码、数学领域疯狂内卷,争着抢着搞 Agent 开发时,写作能力反倒成了被遗忘的角落。从某种角度说,这倒是个好消息——AI 完全取代编辑的那一天,似乎又往后推了推。

  我尝试让它创作一个「蚊子在冰岛开发布会」的荒诞故事。遗憾的是,DeepSeek V3.1 的 AI 味依然很重,很喜欢拽大词,哦不对,更准确地说,DeepSeek 味还是那么重。

  当我要求它写一则「AI 与人类争夺文章作者身份」的故事时,能明显感受到某些段落信息密度过高,反而造成视觉疲劳,尤其意象堆砌感过于明显,反而削弱了叙事张力。

  另外,这次版本更新中最引人注目的变化,是 DeepSeek 在官方 APP 和网页端移除了深度思考模式中的「R1」标识。此外,DeepSeek R1 还新增了原生「search token」支持,意味着搜索功能得到了进一步优化。

  同时,有推测认为,DeepSeek V3.1 可能是融合推理模型与非推理模型的混合模型,但这样的技术路线是否明智,还有待商榷,而阿里 Qwen 团队在上个月也表示:

  「经过与社区沟通和深思熟虑,我们决定停止使用混合思考模式。相反,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。」

  截至发稿前,全网翘首以待的 DeepSeek-V3.1-Base 模型卡仍未更新,也许等正式发布后,我们能看到更多有趣的技术细节。原文出处:实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算了吧 附彩蛋,感谢原作者,侵权必删!

标签: deepseek

“实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算” 的相关文章

10月18日DeepSeek预测:快船vs勇士,伦纳德缺阵库里能否带队复仇?预测

10月18日DeepSeek预测:快船vs勇士,伦纳德缺阵库里能否带队复仇?预测

  北京时间10月18日10:00,NBA季前赛将迎来一场焦点战,洛杉矶快船客场挑战金州勇士。尽管是季前赛,但两队近期交锋呈现一边倒态势——快船近5次对决全胜,包括上赛季收官战124-11...

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

  【新智元导读】AI新突破!DeepSeek-OCR以像素处理文本,压缩率小于1/10,基准测试领跑。开源一夜4.4k星,Karpathy技痒难耐,展望视觉输入的通用性。...

卫星产业迎来“Deepseek”时刻?卫星产业ETF(159218)午后大涨3.

卫星产业迎来“Deepseek”时刻?卫星产业ETF(159218)午后大涨3.

  卫星产业ETF(159218)跟踪卫星产业指数,覆盖卫星产业上下游龙头企业,相比于同类指数,风险收益表现亮眼,标的指数近一年涨幅近40%。   8月4日,沪指韧性飘红...

10月28日DeepSeek预测:掘金vs森林狼,约基奇三双难阻狼群五连胜?

10月28日DeepSeek预测:掘金vs森林狼,约基奇三双难阻狼群五连胜?

  北京时间10月28日09:30,NBA常规赛将迎来丹佛掘金客场挑战明尼苏达森林狼的焦点战。目前森林狼以2胜1负暂列西部第7,而卫冕冠军掘金1胜1负排名第9。值得注意的是,森林狼近5次交...

国产厂商团结对外!DeepSeek已向华为等提供V4模型测试:无视英伟达、AMD

国产厂商团结对外!DeepSeek已向华为等提供V4模型测试:无视英伟达、AMD

  快科技2月26日消息,据外媒最新报道称,DeepSeek已经将自己最新的大模型交给了国内厂商(软件和硬件)优先测试,其中就包含了华为。   报道中提到,DeepSee...

10月27日DeepSeek预测:凯尔特人vs活塞,布朗对决康宁汉姆,绿军客场止

10月27日DeepSeek预测:凯尔特人vs活塞,布朗对决康宁汉姆,绿军客场止

  北京时间10月27日凌晨3:30,NBA常规赛将上演一场东部焦点战,底特律活塞坐镇小凯撒球馆迎战波士顿凯尔特人。尽管活塞目前1胜1负暂列东部第8,而凯尔特人0胜2负排名第13,但历史交...