当前位置:首页 > Deepseek最新资讯 > 正文内容

“扫描识字”便宜200倍,DeepSeek革了Adobe们的命

4个月前 (01-28)Deepseek最新资讯76

  当开年以来AI界都在讨论智能体和AI员工的话题时,DeepSeek在1月27日悄无声息地发布了一项看似无聊的更新——DeepSeek-OCR2。

  作为2025年10月20日DeepSeek-OCR1发布后时隔三个月的最新更新,尽管看似并不如传说中的V4让人期待,但是DeepSeek-OCR2的公布可能直接敲响了OCR(文档识别)这个千亿级市场的丧钟。

  过去十年,OCR一直是一门隐秘而暴利的生意。从Adobe的PDF编辑器,到扫描全能王的会员费,再到亚马逊AWS Textract昂贵的API调用,无数公司靠着教机器认字赚取了丰厚的利润。

  以全能扫描王的母公司合合信息为例,其财报显示公司毛利率常年以来维持在85%的水平。但一夜之间,DeepSeek告诉市场:识图认字可以不需要这么贵。

  DeepSeek-OCR2的核心创新在于引入了名为DeepEncoder-V2的新型编码器结构,它能够根据图像语义动态调整视觉信息的处理顺序,使模型在进行文字识别前先对视觉内容进行智能排序。

  这种模式的死穴在于不懂逻辑。遇到报纸的跨栏排版,它会把两篇无关的文章拼在一起;面对扭曲的发票,就找不到对齐线;对于密集的小字财报,只能看到模糊化的文本。

  而DeepSeek-OCR2引入了视觉因果流的概念。在DeepEncoder-V2中,研究团队用一种类语言模型结构替代了原先基于CLIP的视觉编码模块,并在编码器内部引入可学习的因果流查询token。

  其编码器同时包含双向注意力与因果注意力两种处理模式,原始视觉信息通过双向注意力进行全局感知,而新增的查询标记则通过因果注意力逐步建立语义顺序。

  这相当于给AI戴上了自适应显微镜。它不再暴力压缩图片,而是根据内容密度动态切片。哪里字多,就切细点看;哪里是空白,就跳过。

  DeepSeek-OCR2不是简单地把图变成文字,而是直接输出Markdown或JSON格式。它看到的不是线条和墨水,而是键值对。

  这意味着企业原本需要雇佣工程师编写大量正则表达式来清洗数据的工作,瞬间失去了价值。更关键的是它自带质量控制功能。如果你给它一张沾了油渍的超市小票,污渍挡住了总价,传统OCR会诚实地输出一堆乱码。DeepSeek会读取上面的所有单价和数量,在心里做一遍加法,然后推理出:虽然这里看不清,但根据计算逻辑,总价应该是108.5元。

  同时,人类商业文档充满了潜台词:加粗意味着强调,红色意味着亏损,箭头意味着流程。传统OCR会丢掉这些信息,而DeepSeek能保留这些情绪和重点。

  这意味着,处理1000页带有复杂表格的金融文档,使用AWS Textract大约需要65美元(约合人民币470元)。

  而DeepSeek的Token计费模型,处理同样信息量的文档,成本约为0.28美元(约合人民币2元)。如果命中缓存,成本甚至低至0.028美元。从65美元到0.28美元,这是超过200倍的成本差距。

  在任何商业竞争中,当挑战者的成本只有你的1/200时,原本引以为傲的独家算法、私有数据集都变得毫无意义。

  DeepSeek-OCR2的出现直接让以合合信息、汉王科技、ABBYY为代表的传统OCR厂商我们积累了十年的票据模板,大模型做不好这些长尾场景的叙事逻辑直接崩塌。

  合合信息的C端产品主要是扫描全能王、名片全能王、启信宝等APP,B端产品主要是面向各行业客户提供的智能文字识别、商业大数据的产品和服务。当DeepSeek证明了:大模型不仅能做,而且不需要专门训练就能做得更好。当通用模型的泛化能力覆盖了垂直模型的专业能力,这些公司的技术壁垒就消失了,只剩下脆弱的客户关系。

  而Adobe Acrobat作为PDF时代的王者,其逻辑是编辑。在AI时代,用户不需要编辑PDF,需要的是重构内容。如果DeepSeek能直接读懂PDF并将其完美转化为可编辑的Word,甚至直接提取数据进入数据库,那么PDF编辑器这个工具本身就失去了存在的意义。

  AWS Textract的定价从基础文字检测的每页0.0015美元,到表格提取的每页0.015美元,再到表单处理的每页0.05美元。云厂商习惯了将每一个功能封装成昂贵的API出售。DeepSeek的开源策略让企业发现:原来我不需要交这笔过路费。

  开发者可以在本地部署一个开源的DeepSeek模型,既保护了隐私,又省下了巨额预算。但对于更广泛的商业世界,当机器读书不再昂贵,新的机会正在涌现。

  原本因为OCR成本高昂而无法实现的小微企业征信服务变得可行;大规模的试卷批改和学习资料数字化成为现实;病历、检查报告的自动化处理和分析得以普及;合同审查、案例检索的智能化升级也将加速。

  值得注意的是,DeepSeek-OCR2采用了阿里巴巴轻量级千问Qwen2-0.5b模型取代架构中关键组件之一,展现了中国开源生态系统推动人工智能发展的日益重要性。

  DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径deepseek。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。

  这种开源协作模式带来的不仅是技术迭代的加速,不同团队的技术成果可以快速整合;更重要的是成本的大幅降低,避免重复造轮子,研发成本得以分摊;最终带来的是整个生态系统的繁荣,更多开发者可以基于开源模型构建应用。

  DeepSeek-OCR2的发布,不仅仅是一个技术新闻。它标志着OCR这一伴随了计算机行业几十年的技术,正式完成了历史使命——从一种需要高价购买的服务,变成了水电煤一样的基础设施。

  根据DeepSeek公布的技术报告,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间。这种极致的效率优化,正是基础设施化的典型特征。

  对于Adobe和合合信息们来说,凛冬已至;但对于更广泛的商业世界,当机器读书不再昂贵,海量沉睡在纸张、PDF和图片里的数据资产,才真正迎来了被唤醒的时刻。

  在这个AI重塑一切的时代,任何建立在信息不对称和技术门槛上的商业模式,都将面临来自开源世界的降维打击。而这,或许只是开始。原文出处:“扫描识字”便宜200倍,DeepSeek革了Adobe们的命,感谢原作者,侵权必删!

标签: deepseek

““扫描识字”便宜200倍,DeepSeek革了Adobe们的命” 的相关文章

1月25日DeepSeek预测:热火vs爵士,阿德巴约率队攻克盐湖城

1月25日DeepSeek预测:热火vs爵士,阿德巴约率队攻克盐湖城

  西部传统劲旅爵士(15胜30负)将坐镇主场迎战东部第八的热火(23胜22负),双方胜率相差17.8个百分点。爵士虽坐拥联盟第二的场均助攻(30.2次),但场均失分高达127.4分联盟垫...

12月4日DeepSeek预测:马刺vs魔术,文班亚马缺阵魔术主场占优

12月4日DeepSeek预测:马刺vs魔术,文班亚马缺阵魔术主场占优

  NBA常规赛迎来一场东西部强强对话,奥兰多魔术将在主场迎战圣安东尼奥马刺。魔术作为东部知名球队,目前以13胜8负排名东部第五,而马刺则以14胜6负位列西部第四。本场比赛的胜负将对两队的...

智启消费新未来 量化派:AI时代实体经济的赋能者

智启消费新未来 量化派:AI时代实体经济的赋能者

  截至2025年11月,累计有611款生成式人工智能服务完成备案、306款相关应用或功能完成登记。这组数据不仅是国产生成式AI产业规模持续壮大的直接印证,更标志着我国人工智能发展已进入“...

涨停揭秘:浙大网新尾盘直线涨停,AI算力+DeepSeek概念叠加,上轮DS行情

涨停揭秘:浙大网新尾盘直线涨停,AI算力+DeepSeek概念叠加,上轮DS行情

  8月22日,浙大网新尾盘直线涨停,股价报11.95元,涨幅10.04%,成交额突破20亿元,换手率高达17.64%。该股开盘价11.05元,盘中最高触及11.95元,全天振幅9.21%...

DeepSeek-V3.1浪潮下八大AI龙头股投资全解析

DeepSeek-V3.1浪潮下八大AI龙头股投资全解析

  凭借独创的“混合推理架构”(Thinking Mode + Non-Thinking Mode),将深度思考与高效响应两种模式融合,实现了推理效率与成本的革命性平衡,被视为下一代AI基...

10月31日DeepSeek预测:奇才vs雷霆,雷霆主场大胜?亚历山大vs乔治巅

10月31日DeepSeek预测:奇才vs雷霆,雷霆主场大胜?亚历山大vs乔治巅

  北京时间10月31日早8点,NBA常规赛将上演一场东西部强弱对话——华盛顿奇才客场挑战俄克拉荷马雷霆。目前奇才1胜3负排名东部第11,而雷霆则以5战全胜的完美战绩高居西部榜首。双方近5...