跳转到主要内容

什么是底层智能文档抽取 API

底层智能文档抽取 API(Entity Extraction)是 TextIn 提供的独立文档信息抽取服务,基于大模型从文档中提取关键字段和表格,支持 Prompt 模式(自然语言描述)和字段模式(结构化定义)两种抽取方式。 该 API 是 Docflow 平台内部使用的底层抽取引擎,也可以脱离 Docflow 独立调用。

与 Docflow 文档抽取的区别

对比项Docflow 文档抽取底层智能文档抽取 API (Entity Extraction)
调用方式通过 Docflow 上传→分类→抽取流程直接调用 TextIn Entity Extraction API
接口类型异步接口:上传文件后通过任务 ID 查询结果同步接口:请求即返回抽取结果,无需轮询
任务记录有完整的任务记录,可随时查询历史结果无任务记录,结果不会持久化存储,需调用方自行保存
前置条件需提前配置文件类别和字段/表格模板无需预配置,通过请求参数指定抽取内容
抽取模式基于类别模板的字段抽取,支持字段、表格、印章、手写体Prompt 模式:自然语言描述需要抽取的内容;字段模式:结构化定义 fields 和 table_fields
结果特点与 Docflow 流程深度集成,支持审核规则校验返回 llm_json(直接结果)和 raw_json(含坐标),附带 token 消耗统计
适用场景批量处理同类文档,需要分类、审核等完整业务流程快速验证抽取效果、灵活抽取、不需要 Docflow 完整流程的轻量场景
底层智能文档抽取 API 是同步接口,调用后直接返回抽取结果,不会在平台侧产生任务记录,也无法事后查询历史结果。如果您需要持久化存储和历史查询能力,请使用 Docflow 的文档抽取流程。