什么是底层智能文档抽取 API
底层智能文档抽取 API(Entity Extraction)是 TextIn 提供的独立文档信息抽取服务,基于大模型从文档中提取关键字段和表格,支持 Prompt 模式(自然语言描述)和字段模式(结构化定义)两种抽取方式。 该 API 是 Docflow 平台内部使用的底层抽取引擎,也可以脱离 Docflow 独立调用。与 Docflow 文档抽取的区别
| 对比项 | Docflow 文档抽取 | 底层智能文档抽取 API (Entity Extraction) |
|---|---|---|
| 调用方式 | 通过 Docflow 上传→分类→抽取流程 | 直接调用 TextIn Entity Extraction API |
| 接口类型 | 异步接口:上传文件后通过任务 ID 查询结果 | 同步接口:请求即返回抽取结果,无需轮询 |
| 任务记录 | 有完整的任务记录,可随时查询历史结果 | 无任务记录,结果不会持久化存储,需调用方自行保存 |
| 前置条件 | 需提前配置文件类别和字段/表格模板 | 无需预配置,通过请求参数指定抽取内容 |
| 抽取模式 | 基于类别模板的字段抽取,支持字段、表格、印章、手写体 | Prompt 模式:自然语言描述需要抽取的内容;字段模式:结构化定义 fields 和 table_fields |
| 结果特点 | 与 Docflow 流程深度集成,支持审核规则校验 | 返回 llm_json(直接结果)和 raw_json(含坐标),附带 token 消耗统计 |
| 适用场景 | 批量处理同类文档,需要分类、审核等完整业务流程 | 快速验证抽取效果、灵活抽取、不需要 Docflow 完整流程的轻量场景 |
底层智能文档抽取 API 是同步接口,调用后直接返回抽取结果,不会在平台侧产生任务记录,也无法事后查询历史结果。如果您需要持久化存储和历史查询能力,请使用 Docflow 的文档抽取流程。

