当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek-OCR 2重磅发布

4个月前 (01-28)Deepseek最新资讯76

　　摘要：DeepSeek发布OCR 2新系统，凭借DeepEncoder V2核心技术，让AI学会像人类一样按“逻辑因果”看图，而非机械扫描。在基准测试中，新模型达到91.09%的性能，较前代提升3.73%，同时视觉token使用上限降至1120个（前代为1156个）。这一技术突破或将颠覆传统文档处理模式，开启原生多模态推理新路径。

　　DeepSeek发布新一代光学字符识别系统，通过让AI以类似人类的逻辑顺序理解图像，在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

　　27日，DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法，使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段，而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

　　值得注意的是，该模型在保持极高精度的同时，严格控制了计算成本，其视觉Token数量被限制在256至1120之间，这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中，该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%，显示出极高的实用成熟度。

　　根据DeepSeek公布的技术报告，现有的视觉语言模型（VLMs）通常采用固定的光栅扫描顺序（光栅扫描顺序）处理图像切片，即机械地从左上角扫描至右下角。DeepSeek团队指出，这种方式引入了不必要的归纳偏差，与人类视觉感知背道而驰。人类在阅读复杂文档、表格或追踪螺旋线条时，视线是受语义理解驱动的“因果流”，后一次注视往往因果依赖于前一次注视，而非单纯的空间坐标移动。

　　受此认知机制启发，DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”（Causal Flow Queries），模型能够在进入LLM解码器进行内容解释之前，先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构：首先由编码器在语义上重组视觉Token，随后由解码器对有序序列进行自回归推理。这种设计不仅符合光学文本、表格和公式的非线性布局特征，还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

　　DeepEncoder V2在架构上实施了重大变革，将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构（具体为Qwen2-0.5B）。为了实现并行处理，新架构引入了一组可学习的查询向量，称为“因果流Token”，并将原始视觉Token作为前缀拼接到序列中。

　　视觉Token部分：保留双向注意力机制，确保模型能够像CLIP一样拥有全局感受野，捕捉图像的整体特征。

　　因果流Token部分：采用因果注意力机制（类似Decoder-only LLM），每个查询Token只能关注之前的Token。

　　通过这种设计，视觉Token保持了信息的全局交互，而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略（Multi-crop strategy），根据图像分辨率不同，最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗，在保证高性能的同时大幅降低了计算开销。

　　除了基准测试，DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值（Ground Truth）的生产环境中，重复率（Repetition Rate）是衡量质量的核心指标。数据显示，在处理在线用户日志图像时，DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中，重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

　　DeepSeek-OCR 2的发布不仅是一次OCR性能的升级，更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果，如混合专家（MoE）架构和高效注意力机制。

　　DeepSeek团队认为，这为迈向统一的全模态编码器提供了一条有希望的路径。未来，单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式，通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务deepseek，或许代表了实现真正2D推理的一种突破性架构方法。原文出处：DeepSeek-OCR 2重磅发布，感谢原作者，侵权必删！

标签: deepseek