2025.10.16 百度飞桨团队发布PaddleOCR-VL
介绍
PaddleOCR-VL 是一个针对文档解析的 SOTA 和资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,这是一个紧凑而强大的视觉-语言模型(VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型结合在一起,以实现准确的元素识别。这个创新的模型高效地支持 109 种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持最低的资源消耗。通过在广泛使用的公共基准测试和内部基准测试上的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均达到了 SOTA 性能。它显著优于现有的解决方案,在顶级 VLM 中表现出强大的竞争力,并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。
核心特性
- 紧凑而强大的 VLM 架构: 我们提出了一种专门设计用于资源高效推理的新颖视觉-语言模型,在元素识别方面表现出色。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合,我们显著增强了模型的识别能力和解码效率。这种结合在保持高精度的同时减少了计算需求,使其非常适合高效且实用的文档处理应用。
- 文档解析中的 SOTA 性能: PaddleOCR-VL 在页面级文档解析和元素级识别方面都达到了最先进的性能。它显著优于现有的基于流水线的解决方案,并在文档解析方面对领先的视觉-语言模型(VLMs)表现出强大的竞争力。此外,它在识别复杂的文档元素(如文本、表格、公式和图表)方面表现出色,适用于各种具有挑战性的内容类型,包括手写文本和历史文档。这使其非常通用,适用于各种文档类型和场景。
- 多语言支持: PaddleOCR-VL 支持 109 种语言,涵盖主要的全球语言,包括但不限于中文、英文、日文、拉丁文和韩文,以及使用不同脚本和结构的语言,如俄语(西里尔字母)、阿拉伯语、印地语(天城文)和泰语。这种广泛的语言覆盖范围大大增强了我们系统在多语言和全球化文档处理场景中的适用性。
