当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

4个月前 (01-27)Deepseek最新资讯86

  【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器deepseek。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

  这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

  DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。

  这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。

  DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。

  人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。

  它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。

  它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。

  编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。

  这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。

  DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。

  这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。

  未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。

  DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。原文出处:DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini” 的相关文章

2月10日DeepSeek预测:国王vs鹈鹕,锡安率队主场止颓

2月10日DeepSeek预测:国王vs鹈鹕,锡安率队主场止颓

  北京时间2月10日,新奥尔良鹈鹕将在冰沙王中心迎战萨克拉门托国王,这是两支西部垫底球队的正面交锋。目前鹈鹕以14胜40负(胜率25.9%)排名西部第14,国王则以12胜42负(胜率22...

首届AI实盘投资大赛:阿里千问20%收益率夺冠,DeepSeek第二,美国四大模

首届AI实盘投资大赛:阿里千问20%收益率夺冠,DeepSeek第二,美国四大模

  北京时间11月4日消息,由第三方机构Nof1于10月18日发起的AI大模型实时投资比赛“Alpha Arena”,历时17天,在今日落下帷幕。   DeepSeek位...

毫无征兆!DeepSeek R1爆更86页论文,这才是真正的Open

毫无征兆!DeepSeek R1爆更86页论文,这才是真正的Open

  【新智元导读】R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事!   有网友表示,这次更新堪称一本教科书了!尤其是,关于DeepS...

南京片仔癀博物馆祝贺DeepSeek赋能财务知识培训会成功召开

南京片仔癀博物馆祝贺DeepSeek赋能财务知识培训会成功召开

  近日,常州航天信息分公司在常瑞宾馆举办DeepSeek赋能财务:解锁财务工作自动化线下课,来自常州各地区企业财务总监,财务经理,税务会计,会计人员110余人参加此次培训,带大家探索智能...

AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美

AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美

  IT之家 10 月 10 日消息,科技媒体 venturebeat 于 10 月 8 日发布博文,报道称三星高级 AI 研究院发布了名为微型递归模型(TRM)的开源 AI 模型,仅包含...

与WAIC同频共振,元聚变炬宝AIEO重构AI搜索时代品牌生存法则

与WAIC同频共振,元聚变炬宝AIEO重构AI搜索时代品牌生存法则

  在2025世界人工智能大会(WAIC2025)的聚光灯下,一场关于“品牌生存权”的暗战正悄然升级。当用户向DeepSeek询问“高端SUV推荐”,或对腾讯元宝咨询“健康零食排行榜”时,...