“很快,我们就能看见你。”
在X平台上,DeepSeek多模态团队负责人陈小康发文写道。配图中,品牌标志性的蓝鲸一只眼戴着眼罩,另一只已摘下。
4月29日起,DeepSeek在网页端和App端灰度测试“识图模式”,与“快速模式”“专家模式”并列。用户上传图片后,模型可理解并分析图像内容。部分用户已能使用,也有人看到入口但收到“暂时不可用”的提示。
准确地说,此次上线的是多模态理解能力,而非完整的多模态生成。只要模型能处理文本加图片等多种输入,即可称为多模态。
据腾讯科技实测,这次开放的主要是图片理解功能,即“看图、读图、分析图”,尚未支持图像生成或视频理解。
产品层面,“识图模式”并非简单附件,而是一个独立模式。页面提示“使用识图模式开始对话”,并配有图片上传按钮。这表明DeepSeek正将视觉理解作为独立方向进行灰度测试。
目前该模式更接近视觉问答与截图分析,而非文生图工具。
实际上,DeepSeek在多模态领域早有积累。2024年发布的DeepSeek-VL系列覆盖图表、公式、文献等场景;后续Janus系列尝试统一理解与生成;Janus-Pro曾被视为图像生成的重要探索;DeepSeek-OCR则面向文档与结构化信息识别。
技术上看,“识图”不限于OCR。OCR识别图片中的文字,而视觉语言模型还需理解物体关系、图表含义和场景意图。此次灰度模式很可能是OCR与文本推理模型的结合。
不过,官方尚未公布底层模型名称、参数或开放计划。API文档目前仍以V4系列和长上下文为主,未见视觉输入接口。这说明多模态能力尚未正式开放。
这一步对DeepSeek依然关键。过去一年,其核心标签是推理、开源、低成本和长上下文。“识图模式”的出现,预示着多模态能力可能成为下一个发力方向。
【免责声明】部分数据来源于网络:本文核心事实参考自国家市场监管总局公开通报、人民日报、北京市海淀区市场监管局发布信息等权威渠道。如有侵权,请及时与本网站联系,我们将第一时间予以删改。文中所涉观点、数据及分析仅代表小编个人观点,仅供参考,不构成任何投资建议、商业决策依据或法律承诺。投资有风险,决策需谨慎;任何单位或个人据此进行商业决策、经营行为所产生的风险,均自行承担。