Textin DocFlow API文档
  1. DocFlow 业务处理流程
Textin DocFlow API文档
  • REST API 开发者文档概述
  • 状态码列表
  • 接口认证
  • DocFlow 业务处理流程
    • 概述
    • 文档解析
    • 文档分类
    • 信息抽取
    • 智能审核
  • REST API 列表
    • 智能审核
      • 审核接口使用教程说明
      • 审核接口字段依赖
      • 文件批次列表
      • 文件任务类别列表
      • 审核规则列表
      • 文件任务列表
      • 模型字段列表
      • 创建审核规则
      • 更新审核规则
      • 删除审核规则
      • 试运行审核规则
      • 提交审核任务
      • 审核规则任务列表
    • 上传文件
    • 获取文件处理结果列表
    • 更新文件处理结果
  1. DocFlow 业务处理流程

文档分类


概述#

使用 文件上传接口 上传文件后,可通过异步方式调用 获取结果接口 获取处理结果。
在使用前,用户需在空间配置中预先设置目标文档分类。目前,分类结果仅包含已配置的文档类型。
默认情况下,文档分类是业务流程中的关键中间环节,信息抽取操作需在文档分类完成后进行。
在返回的结果 JSON 中,可通过 result.files[].recognition_status 字段判断识别进度。当 recognition_status=1 时,表示抽取处理已完成,此时结果中也包含分类信息。

单页/单套文档分类#

对于单页或单套文档,分类结果通过 result.files[].category 字段返回。

多页拆套 / 多图切分#

在实际业务场景中,一份文档往往包含多种类型内容,这时需要对文档进行分页拆套或图像切分,以便后续信息抽取和审核。例如:
- 保险理赔场景:一份多页 PDF 可能包含身份证、发票、银行流水等多种材料,需要分页拆套处理。
- 财务报销场景:一张 A4 纸上可能平铺多张出租车发票、飞机行程单等票据,需要进行图像切分。

1. 功能启用#

拆套和多图切分功能默认关闭。
如需启用,可在文件上传时通过参数控制:
- 通过参数 split_flag 启用多页拆套功能;
- 通过参数 crop_flag 启用多图切分功能。
两项功能可根据需要单独或组合使用。

2. 结果获取#

启用拆套或多图切分功能后,若分类引擎判断文件可被拆分,系统将在 result.files[].child_files[].category 字段中返回切分后各文档的分类结果。
每个切分后的文件被视为一个子任务,每个子任务均有独立的抽取结果,字段结构与主任务一致。

仅进行分类#

默认流程中,文档分类完成后会继续进行信息抽取。如仅需获取分类结果,可在文件上传时,通过设置 target_process=classify 控制流程,仅执行分类步骤,不进入后续抽取和审核。
当 target_process=classify 时,result.files[].recognition_status 为 10 表示分类已完成。
修改于 2025-06-10 01:50:13
上一页
文档解析
下一页
信息抽取
Built with