网页模板

餐饮公司网站
浏览次数：12975次
作者：kimi
等级：

商业贸易网站
浏览次数：12136次
作者：kimi
等级：

环保科技公司企业模板2
浏览次数：10969次
作者：kimi
等级：

电气设备公司企业模板
浏览次数：8010次
作者：kimi
等级：

环保科技公司企业模板3
浏览次数：7890次
作者：kimi
等级：

网络知识

DeepSeek-OCR 2 开源革新 VLM 架构实现类人式文档阅读

公司新闻 | 2026/1/28 | 点击：439

2026 年 1 月 27 日，DeepSeek 正式开源 OCR 专用模型 DeepSeek-OCR 2 并发布技术报告。作为初代版本的重磅升级，该模型凭借编码器核心革新实现视觉理解模式突破，让 AI 看图读文件的逻辑贴合人类阅读习惯，在复杂文档处理领域取得端到端 SOTA 成绩，也为 VLM（视觉语言模型）架构探索提供新方向。

与传统 OCR 模型左上到右下的机械扫描式阅读不同，DeepSeek-OCR 2 核心升级 DeepEncoder V2 编码器，弃用 CLIP 编码器并替换为 LLM 风格架构，创新引入因果流查询机制。模型可先全局观察图像，再根据语义对视觉 token 动态重排序，摆脱固定线性顺序限制，能更好理解复杂布局、公式与表格，适配学术论文、表单等多元文档场景。同时，通过窗口注意力实现 16 倍视觉 token 压缩，在降低计算和显存开销的同时，保留完整的局部与中尺度视觉信息，形成编码器语义排序、解码器自回归生成的两级级联因果推理流程。

性能方面，在文档理解基准测试 OmniDocBench v1.5 中，该模型斩获 91.09% 的得分，在训练数据和编码器未变的前提下，较初代提升 3.73%，为端到端 OCR 模型 SOTA 水平；1120 视觉 token 预算下，其文档解析编辑距离低至 0.100，优于 Gemini-3 Pro 的 0.115，印证高性能与高 token 压缩率兼具的优势，阅读顺序编辑距离也从 0.085 降至 0.057，类人阅读逻辑优化效果显著。

模型训练采用编码器预训练、查询增强、解码器专业化三阶段策略，冻结编码器后仅优化 3B 参数 MoE 解码器，实现相同计算量下数据吞吐量提升。目前模型在超高密度文本的报纸场景识别效果仍有短板，可通过增加局部裁剪、补充训练样本改善。

据悉，DeepSeek-OCR 2 已完全开源，兼具研究与实用双重价值，既可作为新型 VLM 架构探索载体，也能生成高质量预训练数据服务大语言模型训练。研发团队表示，核心的 DeepEncoder V2 架构具备演进为统一全模态编码器的潜力，未来有望实现文本、语音、视觉等多模态内容统一处理，为多模态 AI 研究开辟新路径。

无锡做网站就找无锡世融网络科技有限公司www.srwlkj.com，无锡网络建设公司、无锡网站建设公司，主营无锡网站建设、无锡网页设计、无锡企业网站建设、无锡客户管理软件,无锡客户信息管理,销售分析评估系统 电话：18961739208

上一条记录：马斯克五大 “别再” 预言引争议机器人造美好新世界成谜

下一条记录：全球首创！国产 AI 通矩模型解锁奥数解题出题双能力原创题入选高规格竞赛