2026 年 1 月 27 日,DeepSeek 正式开源 OCR 专用模型 DeepSeek-OCR 2 并发布技术报告。作为初代版本的重磅升级,该模型凭借编码器核心革新实现视觉理解模式突破,让 AI 看图读文件的逻辑贴合人类阅读习惯,在复杂文档处理领域取得端到端 SOTA 成绩,也为 VLM(视觉语言模型)架构探索提供新方向。
与传统 OCR 模型左上到右下的机械扫描式阅读不同,DeepSeek-OCR 2 核心升级 DeepEncoder V2 编码器,弃用 CLIP 编码器并替换为 LLM 风格架构,创新引入因果流查询机制。模型可先全局观察图像,再根据语义对视觉 token 动态重排序,摆脱固定线性顺序限制,能更好理解复杂布局、公式与表格,适配学术论文、表单等多元文档场景。同时,通过窗口注意力实现 16 倍视觉 token 压缩,在降低计算和显存开销的同时,保留完整的局部与中尺度视觉信息,形成编码器语义排序、解码器自回归生成的两级级联因果推理流程。
性能方面,在文档理解基准测试 OmniDocBench v1.5 中,该模型斩获 91.09% 的得分,在训练数据和编码器未变的前提下,较初代提升 3.73%,为端到端 OCR 模型 SOTA 水平;1120 视觉 token 预算下,其文档解析编辑距离低至 0.100,优于 Gemini-3 Pro 的 0.115,印证高性能与高 token 压缩率兼具的优势,阅读顺序编辑距离也从 0.085 降至 0.057,类人阅读逻辑优化效果显著。
模型训练采用编码器预训练、查询增强、解码器专业化三阶段策略,冻结编码器后仅优化 3B 参数 MoE 解码器,实现相同计算量下数据吞吐量提升。目前模型在超高密度文本的报纸场景识别效果仍有短板,可通过增加局部裁剪、补充训练样本改善。
据悉,DeepSeek-OCR 2 已完全开源,兼具研究与实用双重价值,既可作为新型 VLM 架构探索载体,也能生成高质量预训练数据服务大语言模型训练。研发团队表示,核心的 DeepEncoder V2 架构具备演进为统一全模态编码器的潜力,未来有望实现文本、语音、视觉等多模态内容统一处理,为多模态 AI 研究开辟新路径。