DeepSeek 宣布推出新一代文档识别模型 DeepSeek-OCR2。 该模型在视觉编码器设计上实现了重大突破,旨在解决传统模型在处理复杂版式文档时逻辑感缺失的问题。

​DeepSeek-OCR 2 正式发布:引入“视觉因果流”,文档识别更接近人类逻辑

DeepSeek-OCR2的核心亮点在于自研的 DeepEncoder V2编码器。 不同于传统视觉模型按照从左到右、从上到下的固定栅格顺序处理图像,新模型引入了“视觉因果流”概念。 它能够根据图像语义动态调整信息的处理顺序,在识别文字前先对视觉内容进行智能排序,从而使机器的阅读逻辑更贴合人类对表格、公式及复杂文档的理解方式。

在架构上,模型沿用了高效的编解码框架。 图像经 DeepEncoder V2进行语义建模和顺序重组后,交由混合专家架构(MoE)语言模型进行解码。 实验数据表明,在 OmniDocBench v1.5基准测试中,DeepSeek-OCR2的整体得分达到91.09%,较前代提升了3.73%。 尤其在阅读顺序准确度方面,其编辑距离显著降低,表明模型对内容结构的还原能力更强。

此外,DeepSeek-OCR2在实际应用中也展现出更强的稳定性。 在 PDF 批处理及在线日志数据的测试中,识别重复率均有明显下降。 这意味着模型在保持低资源开销的同时,提供了更高质量、更具逻辑性的识别输出。

划重点:

  • 动态语义排序:DeepSeek-OCR2通过“视觉因果流”技术,打破了传统固定栅格的识别顺序,实现了基于语义的动态阅读。

  • 性能跨越式提升:在权威基准测试中,新模型识别性能提升3.73%,阅读顺序准确度显著增强。

  • 高效 MoE 架构:模型继续采用 MoE 架构解码,在不增加算力负担的前提下,实现了更高的识别精度与可靠性。