当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek-OCR 2发布:识别性能提升3.73%,让AI“读懂”复杂文档

3个月前 (01-27)Deepseek最新资讯60

  IT之家 1 月 27 日消息,DeepSeek 今日公布了其最新一代文档识别模型 DeepSeek-OCR 2。很显然,该模型是在 DeepSeek-OCR 的基础上升级而来,核心变化集中在视觉编码器设计上。

  研究团队提出了一种名为 DeepEncoder V2 的新型编码器结构,这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。

  在传统的视觉语言模型中,图像通常会被切分为若干视觉 token,并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。

  DeepSeek 论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅依赖空间顺序可能限制模型对内容结构的理解能力。

  DeepSeek-OCR 2 的改进重点在于引入“视觉因果流”的概念。在 DeepEncoder V2 中,研究团队用一种类语言模型结构替代了原先基于 CLIP 的视觉编码模块,并在编码器内部引入可学习的“因果流查询 token”。这些查询 token 通过定制化的注意力机制,在保留视觉 token 全局双向注意力的同时,自身采用因果注意力,只能访问已有信息,从而在编码阶段对视觉 token 的顺序进行动态重排。最终,只有经过因果重排后的查询 token 会被送入后续的语言模型解码器,用于生成识别结果。

  在整体架构上,DeepSeek-OCR 2 仍然沿用了编码器 — 解码器的基本范式。图像首先经过一个视觉 tokenizerdeepseek,被压缩为较少数量的视觉 token,再由 DeepEncoder V2 进行语义建模和顺序重组,最后交由一个基于混合专家架构(MoE)的语言模型解码。

  DeepSeek 论文指出,该设计在不显著增加解码负担的前提下,将单页文档所使用的视觉 token 数量控制在 256 到 1120 之间,与前代模型及同类系统的资源开销保持在相近水平。

  在实验评估方面,研究团队选用了 OmniDocBench v1.5 作为主要测试基准。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

  测试结果显示,在视觉 token 上限更低的情况下,DeepSeek-OCR 2 的整体得分达到 91.09%,相较 DeepSeek-OCR 提升了 3.73%。其中,与文档阅读顺序相关的编辑距离指标下降较为明显,显示模型在处理文档逻辑结构方面取得了改进。

  IT之家注意到,论文还给出了模型在实际应用场景中的表现对比。在在线 OCR 服务和批量 PDF 预处理等生产环境中,由于缺乏人工标注作为参考,研究团队以输出重复率作为质量指标。结果显示,DeepSeek-OCR 2 在这两类数据上的重复率均低于前代模型,表明其在真实数据分布下具有更稳定的输出表现。原文出处:DeepSeek-OCR 2发布:识别性能提升3.73%,让AI“读懂”复杂文档,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek-OCR 2发布:识别性能提升3.73%,让AI“读懂”复杂文档” 的相关文章

后R1时代:DeepSeek发展的三大阶段

后R1时代:DeepSeek发展的三大阶段

  ,还是以基础模型 DeepSeek V3-Base 为基座,通过后训练实现了模型能力的提升,弥补了和头部模型之间的差距。   8月21日,Deep在发布V3.1的同时...

浪潮云海若一体机入选山东省首台(套)技术装备生产企业及产品名单

浪潮云海若一体机入选山东省首台(套)技术装备生产企业及产品名单

  近日,《2025年度山东省首台(套)技术装备生产企业及产品名单》正式发布,浪潮云海若一体机凭借领先的技术创新性、全栈国产化适配能力及行业场景落地价值成功入选。此次入选不仅是海若一体机在...

10月23日DeepSeek预测:森林狼vs开拓者,爱德华兹率队客场险胜

10月23日DeepSeek预测:森林狼vs开拓者,爱德华兹率队客场险胜

  2025-26赛季常规赛揭幕周,西部第7的森林狼将客场挑战排名第9的开拓者。尽管两队当前胜率均为0%,但上赛季森林狼3胜2负的历史交锋优势,以及爱德华兹领衔的明星阵容,让这场西北区内战...

10月31日DeepSeek预测:热火vs马刺,文班亚马率队捍卫主场,马刺险胜热

10月31日DeepSeek预测:热火vs马刺,文班亚马率队捍卫主场,马刺险胜热

  10月31日早8:30,NBA常规赛将迎来一场焦点对决,东部第三的热火(3胜1负)客场挑战西部第二的马刺(4胜0负)。作为联盟进攻效率第一的球队,热火将检验马刺联盟第一的防守效率(场均...

11月6日 DeepSeek预测 奇才vs凯尔特人:绿军主场欲延续碾压,布朗或率

11月6日 DeepSeek预测 奇才vs凯尔特人:绿军主场欲延续碾压,布朗或率

  华盛顿奇才(1胜6负,东部第14)将客场挑战波士顿凯尔特人(3胜5负,东部第11),两支球队本赛季均表现挣扎。奇才近期遭遇5连败,场均净负14.4分的防守漏洞令人担忧;而凯尔特人虽排名...

1月10日DeepSeek预测:老鹰vs掘金,约基奇缺阵,掘金主场险胜

1月10日DeepSeek预测:老鹰vs掘金,约基奇缺阵,掘金主场险胜

  北京时间1月10日上午10点,NBA常规赛将迎来一场东西部对决,西部第三的丹佛掘金(25胜12负)坐镇高原主场迎战东部第九的亚特兰大老鹰(18胜21负)。尽管掘金近期遭遇核心约基奇伤停...