当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek-OCR 2重磅发布

4个月前 (01-28)Deepseek最新资讯76

  摘要:DeepSeek发布OCR 2新系统,凭借DeepEncoder V2核心技术,让AI学会像人类一样按“逻辑因果”看图,而非机械扫描。在基准测试中,新模型达到91.09%的性能,较前代提升3.73%,同时视觉token使用上限降至1120个(前代为1156个)。这一技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径。

  DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

  27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

  值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。

  根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

  受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

  DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

  视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。

  因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

  通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

  除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

  DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

  DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务deepseek,或许代表了实现真正2D推理的一种突破性架构方法。原文出处:DeepSeek-OCR 2重磅发布,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek-OCR 2重磅发布” 的相关文章

我把DeepSeek“装”进毛绒玩具,年入过亿

我把DeepSeek“装”进毛绒玩具,年入过亿

  而当下,这家刚刚在8月完成了2亿元融资的公司风头正劲。它所处的AI玩具赛道,处在AI和情绪价值两个风口上,被投资圈视为AI技术最早跑通的消费级方向之一。据IT桔子数据,去年以来已有近百...

【中原计算机】人工智能专题:后R1时代,DeepSeek发展的三大阶段

【中原计算机】人工智能专题:后R1时代,DeepSeek发展的三大阶段

  DeepSeek在年初发布了R1以后,受到了各界普遍关注。后续来看,DeepSeek并没有如期发布更先进的模型R2,而是在进行更多小版本的更新换代。结合每个阶段的发展重点,我们将其划分...

中国移动携“人车家”互联、低空智联网等成果亮相2025智博会

中国移动携“人车家”互联、低空智联网等成果亮相2025智博会

  9月5日,2025世界智能产业博览会(以下简称“2025智博会”)在重庆国际博览中心启幕。作为科技强国、网络强国、数字中国建设的主力军,中国移动深度融入“人工智能+”国家战略,全面实施...

1月5日DeepSeek预测:步行者vs魔术,班凯罗率队主场轻取残阵步行者

1月5日DeepSeek预测:步行者vs魔术,班凯罗率队主场轻取残阵步行者

  东部第七的魔术将在安利中心迎战联盟垫底的步行者,这看似一场实力悬殊的对决,却因两队四天前的2分险胜增添悬念。让我们通过多维数据分析这场比赛的胜负关键。   魔术(19...

11月15日DeepSeek预测:黄蜂vs雄鹿,字母哥缺阵或成转折点

11月15日DeepSeek预测:黄蜂vs雄鹿,字母哥缺阵或成转折点

  11月15日09:00,雄鹿将坐镇主场迎战背靠背作战的黄蜂。目前雄鹿7胜5负排名东部第7,黄蜂4胜7负位列第12。此役对双方排名至关重要——雄鹿若胜可冲击前六,黄蜂赢球则有望缩小与附加...

10月25日DeepSeek预测:太阳vs快船,布克率队延续连胜,快船主场难挡火

10月25日DeepSeek预测:太阳vs快船,布克率队延续连胜,快船主场难挡火

  2025-26赛季NBA常规赛第二比赛日,菲尼克斯太阳将造访加密网竞技场挑战洛杉矶快船。主队快船作为近年西部豪强,新赛季首战21分惨败爵士后排名西部垫底;客队太阳则凭借揭幕战4分险胜国...