当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型

4个月前 (01-28)Deepseek最新资讯76

  相较于去年10月20日发布的初代模型,DeepSeek-OCR 2的核心突破在于打破了传统模型死板的“光栅扫描”逻辑,实现了

  为此,DeepSeek-OCR 2弃用了前作中的CLIP组件,转而使用轻量化的语言模型(Qwen2-0.5B)构建DeepEncoder V2,在视觉编码阶段就引入了“因果推理”能力。

  编码器负责将图像离散化为视觉标记(Visual Tokens),解码器则结合这些标记与用户指令生成最终文本输出。

  传统的视觉编码器通常按照固定的“光栅扫描”(从左到右、从上到下)顺序处理图像,这在面对复杂版面(如双栏文档、错落的表格)时,往往会切断语义的逻辑连贯性。

  将此前的CLIP组件替换为轻量化的LLM架构(Qwen2-0.5B),这一转变赋予了编码器因果推理能力

  为了实现这种智能重排,DeepEncoder V2引入了一种全新的双流注意力机制,其底层逻辑通过一个定制的注意力掩码(Attention Mask)来约束:

  这种设计使得视觉标记之间互不干扰(保持原始特征),但每一个查询标记却被强制要求只能“看到”它之前的标记以及所有的视觉标记。

  相比传统的交叉注意力结构,这确保视觉信息在所有层中都保持“活跃”,从而与因果查询进行深度信息交换。

  而在V2中,通过查询标记(Learnable Query)的重排,模型在进入主解码器之前,就已经在编码器内部完成了一次“逻辑理顺”

  首先是一开头的视觉分词器(SAM),其沿用了此前的架构,采用了80M参数的SAM-base架构,并结合两层卷积层。

  输出维度从前代的1024优化缩减至896,以对齐后续管线,这套分词器的设置实现了16倍的标记压缩

  这种基于压缩的设计,以极小的参数开销,极大地释放了后续全局注意力模块的计算压力,让模型运行更轻快。

  此外,为了在处理不同分辨率图像时“不丢细节”,DeepSeek-OCR 2在编码阶段还引入了灵活的裁剪方案:

  最终输入LLM的标记总数稳定在256到1120之间,与Gemini-1.5 Pro的视觉预算相匹配。

  最后,在后端解码器部分,DeepSeek-OCR 2保留了3B参数的MoE结构(实际激活参数仅约 500M)。

  在数据策略上,DeepSeek-OCR 2延续了与前代相同的数据源,OCR相关数据占比达80%deepseek

  二是标签精简化,合并了如“图片说明”与“标题”等语义相似的布局标签。这种极小的底层差异,确保了其与基准测试之间具备高度的一致性与可比性。

  在实验阶段,DeepSeek-OCR 2主要在OmniDocBench v1.5上进行评估,包含1355个页面,涵盖杂志、学术论文、研究报告等9大类文档。

  在实际生产中,在线用户日志的重复率从6.25%降至4.17%,PDF 生产数据重复率从 3.69% 降至 2.88%,证明了模型逻辑视觉理解能力的提升。

  整体来看,DeepSeek-OCR 2在保持高压缩率的同时实现了显著的性能提升验证了使用语言模型架构作为视觉编码器的可行性,这为迈向统一的全模态编码器(omni-modal encoder)提供了路径。

  李宇琨,谷歌学术论文近万引研究员,也持续参与了包括DeepSeek V2/V3在内的多款模型研发。原文出处:DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型” 的相关文章

DeepSeek发布两个正式版模型,消费电子ETF(561600)盘中蓄势

DeepSeek发布两个正式版模型,消费电子ETF(561600)盘中蓄势

  中国银河证券指出,本周消费电子板块反弹,受益于最新消费政策利好刺激,以及华为、阿里夸克AI眼镜发布等事件催化。消费电子板块经调整后已有性价比,消费电子板块手机推荐关注苹果链和华为链,消...

DeepSeek预测:图卢兹vs巴黎圣日耳曼!马格里能否掀翻姆巴佩接班人?

DeepSeek预测:图卢兹vs巴黎圣日耳曼!马格里能否掀翻姆巴佩接班人?

  2025赛季法甲第3轮即将上演一场焦点战,目前同积6分并列榜首的图卢兹将在市政球场迎战卫冕冠军巴黎圣日耳曼。两支球队新赛季都保持零失球,图卢兹凭借前锋马格里的两粒进球暂列第二,而巴黎则...

DeepSeek预测:西汉姆联vs利物浦!铁锤帮能否锤爆红军?萨拉赫vs威尔逊谁

DeepSeek预测:西汉姆联vs利物浦!铁锤帮能否锤爆红军?萨拉赫vs威尔逊谁

  英超第13轮即将迎来一场焦点战,西汉姆联坐镇伦敦体育场迎战利物浦。目前西汉姆联排名第17,距离降级区仅一步之遥,而利物浦排名第12,距离欧战区也仅有2分之差。这场比赛对于双方来说都至关...

DeepSeek预测:里尔VS巴黎圣日耳曼!姆巴佩领衔大巴黎能否延续连胜?

DeepSeek预测:里尔VS巴黎圣日耳曼!姆巴佩领衔大巴黎能否延续连胜?

  法甲第7轮将迎来一场焦点战,里尔将在主场迎战领头羊巴黎圣日耳曼。目前巴黎圣日耳曼以5胜0平1负积15分排名榜首,而里尔则以3胜1平2负积10分排名第6。这场比赛对于双方来说都至关重要,...

12月24日DeepSeek预测:火箭vs快船,杜兰特率队客场复仇,哈登孤掌难鸣

12月24日DeepSeek预测:火箭vs快船,杜兰特率队客场复仇,哈登孤掌难鸣

  当西部第6的火箭(17胜9负)造访第14的快船(7胜21负),这场看似悬殊的较量因12天前火箭2分险胜的剧本而充满悬念。快船急需摆脱西部垫底困境,而火箭则要巩固季后赛席位——双方胜场差...

DeepSeek更新后被吐槽变傻!网友自发号召给官方提意见:赶快调回来 不然用不

DeepSeek更新后被吐槽变傻!网友自发号召给官方提意见:赶快调回来 不然用不

  快科技2月12日消息,2月11日晚间,DeepSeek不管是网页端还是App端,都悄悄更了新版本,还开启了灰度测试,最亮眼的就是——上下文长度直接拉到1M百万Token,相当于翻了快8...