当在 DocFlow 空间设置页面配置好文件分类模板后,后续文件上传时,如果不指定该文件类型,Docflow 都会自动对文件进行分类,以便后续抽取或审核使用。
文件分类的使用场景
- 报销场景有餐饮发票、出租车发票、飞机行程单等类型单据需要分类
- 物流进出口场景有进口报关单、出口报关单、货运保单、原产地证明等材料需要分类
必须在 Docflow 空间下配置好分类模板,才能使用分类功能。
Docflow 默认会进行完整的 解析->分类->抽取 流程。
如果只想要分类结果,请参考仅分类文档说明。
分类原理
Docflow 配置的分类示例文件后,示例文件先经过解析,然后会对示例文件的标题、文件类型、字段配置、分类提示词等进行向量化分析。
在新文件上传并完成解析后,通过算法将新文件与已配置的分类进行比较,得出最匹配的分类结果。
获取分类结果
可通过结果获取接口 file/fetch 查询。
接口返回 JSON 结构,文件分类信息在result.files[].category字段中。
curl \
-H "x-ti-app-id: <your-app-id>" \
-H "x-ti-secret-code: <your-secret-code>" \
"https://docflow.textin.com/api/app-api/sip/platform/v2/file/fetch?workspace_id=<your-workspace-id>&file_id=<your-file-id>"
分类结果结构与状态
file/fetch 的返回中,每个文件的关键字段包括:
id:文件 ID
name:文件名
category:分类结果(例如 invoice)
recognition_status:识别状态
常见状态(完整取值参见 OpenAPI RecognitionStatus):
0 待识别
1 识别成功(完整流程结束时)
2 识别失败
3 分类中
10 分类完成(仅当上传时 target_process=classify 才会出现此终态)
返回示例(节选)
{
"code": 200,
"result": {
"files": [
{
"id": "202412190001",
"name": "sample.pdf",
"category": "invoice",
"recognition_status": 1
}
]
}
}