快速启动 - Docflow API

Docflow 采用xParse作为核心文档解析服务，能够将 PDF、Word 以及常见图片格式的文档，精准转换为包含文本、表格、标题层级、公式、手写字符和图片信息的结构化数据，便于后续的自动化处理与分析。在知识库构建、非结构化文档图像处理等应用场景中，强大的文档解析能力即可满足大多数需求。Docflow 获取结果接口返回的文档解析结果对 xParse 结果进行大量裁剪，仅保留基础的文本块和位置信息，用来做页面文本位置可视化渲染。

本文档以此示例样本为例。说明如何获取文档解析结果。

前置条件

根据文档上传说明，上传文件，并获得返回的文件ID。

文件处理需要时间，刚上传完后需要等待若干秒后才能获取处理结果。

获取文档解析结果

文档解析结果体积较大，默认不返回。
在调用获取结果接口时，URL参数加上with_document=true，返回文档解析结果。示例：

curl \
  -H "x-ti-app-id: <your-app-id>" \
  -H "x-ti-secret-code: <your-secret-code>" \
  "https://docflow.textin.com/api/app-api/sip/platform/v2/file/fetch?workspace_id=<your-workspace-id>&file_id=<your-file-id>&with_document=true"

返回JSON结构说明

文档解析结构在result.files[].document中，示例(节选)如下：

"document":{
    "pages":[
        {
            "angle":0,
            "width":1191,
            "height":794,
            "lines":[
            {
                "text":"电子发票（普通发票）",
                "position":[ 389, 45, 767, 45, 767, 87, 389, 87 ],
                "charPositions":[]
            }
            ]
        }
    ]
}

字段说明如下：

document: 文档解析的结果对象
- pages: 文档每页解析结果数组
  - angle: 文档页的旋转角度
  - width: 文档页的宽
  - height: 文档页的高
  - lines: 文档中每个文本行的结果
    - text: 文本内容
    - position: 文本坐标
    - charPositions: 文本每个字符坐标

position的意义可以参考坐标体系说明。

任务状态查询坐标体系

​前置条件

​获取文档解析结果

​返回JSON结构说明

前置条件

获取文档解析结果

返回JSON结构说明