Docflow 采用xParse作为核心文档解析服务,能够将 PDF、Word 以及常见图片格式的文档,精准转换为包含文本、表格、标题层级、公式、手写字符和图片信息的结构化数据,便于后续的自动化处理与分析。在知识库构建、非结构化文档图像处理等应用场景中,强大的文档解析能力即可满足大多数需求。Docflow 获取结果接口返回的文档解析结果对 xParse 结果进行大量裁剪,仅保留基础的文本块和位置信息,用来做页面文本位置可视化渲染。
本文档以此示例样本为例。说明如何获取文档解析结果。
前置条件
根据文档上传说明,上传文件,并获得返回的文件ID。文件处理需要时间,刚上传完后需要等待若干秒后才能获取处理结果。
获取文档解析结果
文档解析结果体积较大,默认不返回。在调用获取结果接口时,URL参数加上
with_document=true,返回文档解析结果。
示例:
返回JSON结构说明
文档解析结构在result.files[].document中,示例(节选)如下:
- document: 文档解析的结果对象- pages: 文档每页解析结果数组- angle: 文档页的旋转角度
- width: 文档页的宽
- height: 文档页的高
- lines: 文档中每个文本行的结果- text: 文本内容
- position: 文本坐标
- charPositions: 文本每个字符坐标
 
 
 
position的意义可以参考坐标体系说明。
