QQ联系我 QQ联系我 QQ联系我
网页模板
餐饮公司网站
浏览次数:12616次
作者:kimi
等级:
商业贸易网站
浏览次数:11824次
作者:kimi
等级:
环保科技公司企业模板2
浏览次数:10592次
作者:kimi
等级:
电气设备公司企业模板
浏览次数:7685次
作者:kimi
等级:
环保科技公司企业模板3
浏览次数:7584次
作者:kimi
等级:
DeepSeek-OCR 2 开源 革新 VLM 架构实现类人式文档阅读
公司新闻 | 2026/1/28 | 点击:20

2026 1 27 日,DeepSeek 正式开源 OCR 专用模型 DeepSeek-OCR 2 并发布技术报告。作为初代版本的重磅升级,该模型凭借编码器核心革新实现视觉理解模式突破,让 AI 看图读文件的逻辑贴合人类阅读习惯,在复杂文档处理领域取得端到端 SOTA 成绩,也为 VLM(视觉语言模型)架构探索提供新方向。

与传统 OCR 模型左上到右下的机械扫描式阅读不同,DeepSeek-OCR 2 核心升级 DeepEncoder V2 编码器,弃用 CLIP 编码器并替换为 LLM 风格架构,创新引入因果流查询机制。模型可先全局观察图像,再根据语义对视觉 token 动态重排序,摆脱固定线性顺序限制,能更好理解复杂布局、公式与表格,适配学术论文、表单等多元文档场景。同时,通过窗口注意力实现 16 倍视觉 token 压缩,在降低计算和显存开销的同时,保留完整的局部与中尺度视觉信息,形成编码器语义排序、解码器自回归生成的两级级联因果推理流程。

性能方面,在文档理解基准测试 OmniDocBench v1.5 中,该模型斩获 91.09% 的得分,在训练数据和编码器未变的前提下,较初代提升 3.73%,为端到端 OCR 模型 SOTA 水平;1120 视觉 token 预算下,其文档解析编辑距离低至 0.100,优于 Gemini-3 Pro 0.115,印证高性能与高 token 压缩率兼具的优势,阅读顺序编辑距离也从 0.085 降至 0.057,类人阅读逻辑优化效果显著。

模型训练采用编码器预训练、查询增强、解码器专业化三阶段策略,冻结编码器后仅优化 3B 参数 MoE 解码器,实现相同计算量下数据吞吐量提升。目前模型在超高密度文本的报纸场景识别效果仍有短板,可通过增加局部裁剪、补充训练样本改善。

据悉,DeepSeek-OCR 2 已完全开源,兼具研究与实用双重价值,既可作为新型 VLM 架构探索载体,也能生成高质量预训练数据服务大语言模型训练。研发团队表示,核心的 DeepEncoder V2 架构具备演进为统一全模态编码器的潜力,未来有望实现文本、语音、视觉等多模态内容统一处理,为多模态 AI 研究开辟新路径。

无锡做网站就找无锡世融网络科技有限公司www.srwlkj.com,无锡网络建设公司无锡网站建设公司,主营无锡网站建设无锡网页设计无锡企业网站建设无锡客户管理软件,无锡客户信息管理,销售分析评估系统   电话:18961739208

网站首页 | 公司简介 | 加入我们 | 联系我们 |  虚拟主机  | 无锡网页设计 | 域名注册
无锡企业做网站模版 | 无锡做网站 | 无锡企业网站建设|先舟erp无锡不锈钢加工厂|软瓷

版权所有:无锡世融网络科技有限公司 Copyright©2010 苏ICP备10231109号-3 ICP电信经营许可证:苏B2-20100211

苏公网安备 32020602000573号