当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型

3个月前 (01-28)Deepseek最新资讯72

  相较于去年10月20日发布的初代模型,DeepSeek-OCR 2的核心突破在于打破了传统模型死板的“光栅扫描”逻辑,实现了

  为此,DeepSeek-OCR 2弃用了前作中的CLIP组件,转而使用轻量化的语言模型(Qwen2-0.5B)构建DeepEncoder V2,在视觉编码阶段就引入了“因果推理”能力。

  编码器负责将图像离散化为视觉标记(Visual Tokens),解码器则结合这些标记与用户指令生成最终文本输出。

  传统的视觉编码器通常按照固定的“光栅扫描”(从左到右、从上到下)顺序处理图像,这在面对复杂版面(如双栏文档、错落的表格)时,往往会切断语义的逻辑连贯性。

  将此前的CLIP组件替换为轻量化的LLM架构(Qwen2-0.5B),这一转变赋予了编码器因果推理能力

  为了实现这种智能重排,DeepEncoder V2引入了一种全新的双流注意力机制,其底层逻辑通过一个定制的注意力掩码(Attention Mask)来约束:

  这种设计使得视觉标记之间互不干扰(保持原始特征),但每一个查询标记却被强制要求只能“看到”它之前的标记以及所有的视觉标记。

  相比传统的交叉注意力结构,这确保视觉信息在所有层中都保持“活跃”,从而与因果查询进行深度信息交换。

  而在V2中,通过查询标记(Learnable Query)的重排,模型在进入主解码器之前,就已经在编码器内部完成了一次“逻辑理顺”

  首先是一开头的视觉分词器(SAM),其沿用了此前的架构,采用了80M参数的SAM-base架构,并结合两层卷积层。

  输出维度从前代的1024优化缩减至896,以对齐后续管线,这套分词器的设置实现了16倍的标记压缩

  这种基于压缩的设计,以极小的参数开销,极大地释放了后续全局注意力模块的计算压力,让模型运行更轻快。

  此外,为了在处理不同分辨率图像时“不丢细节”,DeepSeek-OCR 2在编码阶段还引入了灵活的裁剪方案:

  最终输入LLM的标记总数稳定在256到1120之间,与Gemini-1.5 Pro的视觉预算相匹配。

  最后,在后端解码器部分,DeepSeek-OCR 2保留了3B参数的MoE结构(实际激活参数仅约 500M)。

  在数据策略上,DeepSeek-OCR 2延续了与前代相同的数据源,OCR相关数据占比达80%deepseek

  二是标签精简化,合并了如“图片说明”与“标题”等语义相似的布局标签。这种极小的底层差异,确保了其与基准测试之间具备高度的一致性与可比性。

  在实验阶段,DeepSeek-OCR 2主要在OmniDocBench v1.5上进行评估,包含1355个页面,涵盖杂志、学术论文、研究报告等9大类文档。

  在实际生产中,在线用户日志的重复率从6.25%降至4.17%,PDF 生产数据重复率从 3.69% 降至 2.88%,证明了模型逻辑视觉理解能力的提升。

  整体来看,DeepSeek-OCR 2在保持高压缩率的同时实现了显著的性能提升验证了使用语言模型架构作为视觉编码器的可行性,这为迈向统一的全模态编码器(omni-modal encoder)提供了路径。

  李宇琨,谷歌学术论文近万引研究员,也持续参与了包括DeepSeek V2/V3在内的多款模型研发。原文出处:DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型” 的相关文章

11月19日DeepSeek预测:爵士vs湖人,东契奇率队主场擒爵士

11月19日DeepSeek预测:爵士vs湖人,东契奇率队主场擒爵士

  西部排名第10的爵士将客场挑战排名第4的湖人,这是两队本赛季首次交锋。爵士目前5胜8负,胜率38.5%,而湖人10胜4负,胜率高达71.4%。这场比赛对双方都至关重要,爵士需要胜利来提...

11月19日DeepSeek预测:太阳vs开拓者,布克率队客场取胜

11月19日DeepSeek预测:太阳vs开拓者,布克率队客场取胜

  西部季后赛卡位战即将打响!北京时间11月19日中午12点,菲尼克斯太阳将客场挑战波特兰开拓者。目前太阳以8胜6负排名西部第8,开拓者6胜7负紧随其后。这场直接对话或将重塑西部中段排名格...

DeepSeek研发新一代AI智能体模型,预计Q4发布

DeepSeek研发新一代AI智能体模型,预计Q4发布

  9月4日,有报道称,DeepSeek正在开发一款具备更先进AI智能体功能的人工智能模型,意在与OpenAI等竞争对手在技术新前沿展开竞争。该公司正在打造的模型能够在用户仅提供最少指令的...

三重维度透视“人工智能+制造”:技术、场景与生态的协同革命

三重维度透视“人工智能+制造”:技术、场景与生态的协同革命

  八部门联合印发的《“人工智能+制造”专项行动实施意见》(以下简称《实施意见》),标志着我国制造业智能化转型进入系统性推进、质变式突破的新阶段。从技术底座的硬核支撑,到应用场景的深度渗透...

首届AI交易大赛,6个AI炒币2周:Qwen、DeepSeek赚钱,GPT-5血

首届AI交易大赛,6个AI炒币2周:Qwen、DeepSeek赚钱,GPT-5血

  这是第一个专为衡量 AI 投资能力而设计的基准测试,被誉为「币圈版的图灵测试」,由美国人工智能研究实验室 Nof1.ai 于 2025 年 10 月 17 日正式启动,一直持续至 11...

DeepSeek预测:马德里竞技VS奥萨苏纳!床单军团主场碾压,阿尔瓦雷斯6球封

DeepSeek预测:马德里竞技VS奥萨苏纳!床单军团主场碾压,阿尔瓦雷斯6球封

  西蒙尼的马竞目前以13分排名第5,距离欧冠区仅差3分,但身后塞维利亚、埃尔切等同分球队虎视眈眈。奥萨苏纳则位列第12,距离降级区仅有4分优势。这场对决对双方而言都是输不起的战役——马竞...