跳转到主要内容

什么是底层文档解析 API

底层文档解析 API(xParse)是 TextIn 提供的独立文档解析服务,可将 PDF、图片、Word 等文件直接转换为 Markdown / JSON 结构化内容,支持表格、目录、图片、坐标等丰富输出。 该 API 是 Docflow 平台内部使用的底层解析引擎,也可以脱离 Docflow 独立调用。

与 Docflow 文档解析的区别

对比项Docflow 文档解析底层文档解析 API (xParse)
调用方式通过 Docflow 获取结果接口,加 with_document=true 参数直接调用 TextIn 文档解析 API
接口类型异步接口:上传文件后通过任务 ID 查询结果同步接口:请求即返回解析结果,无需轮询
任务记录有完整的任务记录,可随时查询历史结果无任务记录,结果不会持久化存储,需调用方自行保存
前置条件需先将文件上传到 Docflow 工作空间无需 Docflow,直接上传文件即可
返回格式集成在 Docflow 文件结果中 result.files[].document,包含 pages/lines/position独立返回完整解析结果,包括 Markdown、detail、pages、catalog、表格、图片等
配置灵活度由 Docflow 内部管理支持丰富的参数配置(parse_modepage_detailsmarkdown_details 等)
适用场景已接入 Docflow 完整流程,需要结合分类、抽取、审核等后续环节仅需文档解析能力,如构建知识库、RAG 应用、文档格式转换等
底层文档解析 API 是同步接口,调用后直接返回解析结果,不会在平台侧产生任务记录,也无法事后查询历史结果。如果您需要持久化存储和历史查询能力,请使用 Docflow 的文档解析流程。