当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek-OCR 2重磅发布

3个月前 (01-28)Deepseek最新资讯74

  摘要:DeepSeek发布OCR 2新系统,凭借DeepEncoder V2核心技术,让AI学会像人类一样按“逻辑因果”看图,而非机械扫描。在基准测试中,新模型达到91.09%的性能,较前代提升3.73%,同时视觉token使用上限降至1120个(前代为1156个)。这一技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径。

  DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

  27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

  值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。

  根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

  受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

  DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

  视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。

  因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

  通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

  除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

  DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

  DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务deepseek,或许代表了实现真正2D推理的一种突破性架构方法。原文出处:DeepSeek-OCR 2重磅发布,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek-OCR 2重磅发布” 的相关文章

11月25日DeepSeek预测:爵士vs勇士,库里率队主场止颓,马尔卡宁难救主

11月25日DeepSeek预测:爵士vs勇士,库里率队主场止颓,马尔卡宁难救主

  北京时间11月25日11:00,NBA常规赛将迎来一场西部对决,犹他爵士(5胜11负,西部第11)客场挑战金州勇士(9胜9负,西部第8)。爵士作为联盟传统劲旅,本赛季表现挣扎;而勇士虽...

纪事报:纽卡对等待利物浦筹集资金签伊萨克感到愤怒

纪事报:纽卡对等待利物浦筹集资金签伊萨克感到愤怒

  据纪事报消息,利物浦将用出售努涅斯和迪亚斯的资金来竞购伊萨克,纽卡高层对等待利物浦筹集资金感到愤怒。   消息称,随着塞斯科转会曼联的可能性不断增加,纽卡求购前...

美媒称要向DeepSeek学习

美媒称要向DeepSeek学习

  【#美媒称要向DeepSeek学习#】#东南亚成中国微短剧核心粉丝区# “中国变酷了!”2025年,谈及中国的海外吸引力与好感度,“酷炫中国”成为外媒高频评价词。这一年,中国文化创意之...

DeepSeek严正声明:防范诈骗!

DeepSeek严正声明:防范诈骗!

  9月17日晚,深度求索(DeepSeek)发布声明指出,近期deepseek,有不法分子冒充“深度求索”公司或在职员工,伪造工牌、营业执照等材料,在多个平台以“算力租赁”、“股权融资”...

中加配置周报|DeepSeek发布V3.1模型,鲍威尔暗示政策转向

中加配置周报|DeepSeek发布V3.1模型,鲍威尔暗示政策转向

  1、中国新一期LPR出炉,1年期为3.0%,5年期以上为3.5%,连续三月保持不变。业内专家普遍认为,LPR继续“按兵不动”,符合预期。从LPR报价机制看,近期央行多次开展公开市场操作...

取代英伟达,寒武纪靠DeepSeek卖爆“中国芯”

取代英伟达,寒武纪靠DeepSeek卖爆“中国芯”

  翻看寒武纪的客户名单,DeepSeek、商汤科技、腾讯等巨头均位列其中,在华为没有全面走上自主研发道路时,其合作对象也是寒武纪。   作为专注于人工智能芯片产品研发与...