ファイルカテゴリは、DocFlow で文書タイプを整理、定義するための中核概念です。各ファイルカテゴリには、文書分類とインテリジェント抽出に使用するフィールド、表、サンプルなどを設定できます。
中核概念
ファイルカテゴリ API を使用する前に、次の中核概念を理解しておくと、システムの動作を把握しやすくなります。
サンプルファイル
サンプルファイルは、そのファイルカテゴリを代表する典型的な文書例です。DocFlow はこれらのサンプルを次の用途に使用します。
- 分類モデルの学習: システムが異なる文書タイプを識別、区別できるようにします
- 抽出性能の最適化: サンプルの形式やレイアウトパターンを学習し、フィールド抽出精度を向上させます
- 認識テンプレートの確立: 類似文書を自動認識するための参照基準を提供します
要件: 各ファイルカテゴリには少なくとも 1 件のサンプルファイルが必要で、最大 20 件まで登録できます。より良い結果を得るため、代表的なサンプルを 3〜5 件アップロードすることを推奨します。
通常フィールド
通常フィールドは、文書内に 表形式ではない形式 で存在する重要情報を指します。各フィールドにはフィールド名(key)と対応する値が含まれます。フィールドはページや行をまたぐ場合があります。
抽出結果の位置: フィールド情報は抽出結果の result.files[].data.fields[] に格納され、各フィールドには次の情報が含まれます。
key: フィールド名(例: 「請求書コード」「発行日」)
value: フィールド値(抽出されたテキスト内容)
position[]: 文書内の位置座標情報
典型的な利用例:
- 請求書カテゴリ: 請求書コード、請求書番号、発行日、購入者名、合計金額
- 契約書カテゴリ: 契約番号、甲の名称、乙の名称、署名日、契約金額
- 身分証カテゴリ: 氏名、性別、民族、生年月日、身分証番号
フィールドを設定する目的:
- 文書から抽出すべき情報をシステムに明示します
- フィールド説明やプロンプトによって、AI モデルの精密な抽出を導きます
- フィールドのデータ形式や検証ルールを定義します
表フィールド
表フィールドは 表形式の構造化データ を指します。DocFlow は文書内の表構造を認識し、表の内容を構造化データ形式に変換できます。表は複数の行と列で構成され、各表には複数のフィールド(列)を設定できます。
抽出結果の位置: 表情報は抽出結果の result.files[].data.items[][] に格納され、二次元配列構造で表現されます。
- 外側の配列: 表の行を表します
- 内側の配列: 行内のセルを表します
- 各セルには
key(列名)、value(セル値)、position(位置座標)が含まれます
典型的な利用例:
- 請求書カテゴリ: 明細表(商品 / サービス名、規格、単位、数量、単価、金額)
- 経費精算書: 経費明細表(経費項目、日付、金額、備考)
- 注文書カテゴリ: 注文明細表(商品名、数量、単価、小計)
表フィールドと通常フィールドの違い:
- 通常フィールド: 表形式ではないキーと値のペアです。
result.files[].data.fields[] に返され、通常は文書内の単一の情報点を表します
- 表フィールド: 構造化された表データです。
result.files[].data.items[][] に返され、複数行をまとめて抽出できます
- 利用場面: 通常フィールドは文書ヘッダーやフッターの固定情報に適しています。表フィールドは、繰り返し構造を持つ明細一覧に適しています
はじめに
このガイドでは、ファイルカテゴリ関連 API の作成、一覧取得、更新、削除の使い方を説明します。
ファイルカテゴリを作成
少なくとも 1 件のサンプルファイルをアップロードし、少なくとも 1 つのフィールドを設定して、新しいファイルカテゴリを作成します。
curl -X POST \
-H "x-ti-app-id: <your-app-id>" \
-H "x-ti-secret-code: <your-secret-code>" \
-F "workspace_id=<your-workspace-id>" \
-F "name=Invoice" \
-F "category_prompt=VAT invoice with fields such as invoice code, invoice number, etc." \
-F "extract_model=llm" \
-F "sample_files=@/path/to/invoice_sample.pdf" \
-F 'fields=[{"name":"Invoice Code","description":"Invoice code description","prompt":"Please extract the invoice code"}]' \
"https://docflow.textin.ai/api/app-api/sip/platform/v2/category/create"
リクエストパラメータ:
workspace_id(必須): ワークスペース ID
name(必須): ファイルカテゴリ名。最大 50 文字
category_prompt(任意): 分類用プロンプト。最大 500 文字
extract_model(必須): 抽出モデル。指定可能な値は llm、vlm
sample_files(必須): サンプルファイル一覧。少なくとも 1 件のサンプルファイルが必要です。1 カテゴリあたり最大 20 件まで登録できます
fields(必須): フィールド設定一覧(JSON 文字列)。少なくとも 1 つのフィールドが必要です。表フィールドはデフォルト表(table_id=-1)にのみ設定できます
レスポンス例:
{
"code": 200,
"msg": "success",
"result": {
"category_id": "1234567890"
}
}
ファイルカテゴリ一覧を取得
ワークスペース内のすべてのファイルカテゴリを取得します。
curl \
-H "x-ti-app-id: <your-app-id>" \
-H "x-ti-secret-code: <your-secret-code>" \
"https://docflow.textin.ai/api/app-api/sip/platform/v2/category/list?workspace_id=<your-workspace-id>&page=1&page_size=20&enabled=1"
リクエストパラメータ:
workspace_id(必須): ワークスペース ID
page(任意): ページ番号。デフォルトは 1
page_size(任意): 1 ページあたりの件数。デフォルトは 1000
enabled(任意): ステータスフィルタ。指定可能な値は all(すべて)、1(有効)、0(無効)、2(下書き)。デフォルトは 1
レスポンス例:
{
"code": 200,
"msg": "success",
"result": {
"total": 10,
"page": 1,
"page_size": 20,
"categories": [
{
"id": "1234567890",
"name": "Invoice",
"category_prompt": "VAT invoice with fields such as invoice code, invoice number, etc.",
"extract_model": "llm",
"enabled": 1
}
]
}
}
ファイルカテゴリを更新
指定したファイルカテゴリの情報を更新します。
curl -X POST \
-H "x-ti-app-id: <your-app-id>" \
-H "x-ti-secret-code: <your-secret-code>" \
-H "Content-Type: application/json" \
-d '{
"workspace_id": "<your-workspace-id>",
"category_id": "1234567890",
"name": "Updated Category Name",
"category_prompt": "Updated prompt",
"enabled": 1
}' \
"https://docflow.textin.ai/api/app-api/sip/platform/v2/category/update"
リクエストパラメータ:
workspace_id(必須): ワークスペース ID
category_id(必須): ファイルカテゴリ ID
name(任意): ファイルカテゴリ名。最大 50 文字
category_prompt(任意): 分類用プロンプト。最大 500 文字
enabled(任意): ステータス。0: 無効、1: 有効、2: 下書き
ファイルカテゴリを削除
指定したファイルカテゴリを削除します。複数件の一括削除にも対応しています。
curl -X POST \
-H "x-ti-app-id: <your-app-id>" \
-H "x-ti-secret-code: <your-secret-code>" \
-H "Content-Type: application/json" \
-d '{
"workspace_id": "<your-workspace-id>",
"category_ids": ["1234567890", "0987654321"]
}' \
"https://docflow.textin.ai/api/app-api/sip/platform/v2/category/delete"
リクエストパラメータ:
workspace_id(必須): ワークスペース ID
category_ids(必須): 削除するファイルカテゴリ ID の配列
ファイルカテゴリを削除すると、その配下のすべてのフィールド、表、サンプルも削除されます。慎重に操作してください。
次のステップ