アップロードするファイルについて
アップロードできるファイルは、次のうちいずれかです。
- CSV ファイル(
.csv
) - JSON ファイル(
.json
) - テクストファイル(
.txt
、.text
)
複数のファイルをアップロードすることも可能ですが、以下の注意点を確認してください。
文字コード
対応している文字コードは UTF-8、SHIFT-JIS、UTF-16、EUC-JP、ISO-2022-JP です。 どれでも機能に差はありませんが、UTF-8 が最も推奨されます。
なお、Excel でデータを作成される場合は、「CSV(コンマ区切り)」(Shift JIS) を選択してください。 「CSV UTF-8(コンマ区切り)」(UTF-8 BOM 付き) の形式は現在アップロードできません。
複数ファイルをアップロードする際の注意点
複数のファイルをアップロード場合、すべてのファイルのスキーマを合わせる必要があります。 スキーマとは、「どのメタデータ(タイトル、日付、著者など)を持っているか」という情報のことで、プロジェクトごとに一つのスキーマがあります。
LiTA では一つめのファイルを読み込むときに自動でスキーマを決定しますが、そのスキーマと整合しないファイルをアップロードすることはできません。 すべてテクストファイルであれば問題ありませんが、CSV ファイルとテクストファイルが混ざっていたり、CSV ファイルが複数ある場合には注意してください。 どのようにスキーマが決定されるかについては、ファイル形式の詳細以下の各項を参照してください。
ファイル形式の詳細
スキーマは id
、body
とその他のメタデータから構成されます。
言い換えれば、各ドキュメントは必ず ID と本文を一つ持ち、それ以外のメタデータは任意です。ただし、メタデータはすべてのドキュメントで共通でなければなりません。
ID はすべてのドキュメントで一意となるよう必要があります。複数のファイルに同じ ID が含まれないよう注意してください。
たとえば
{
id: 1,
body: テスト1,
date: 2022-01-01,
},
{
id: 2,
body: テスト2,
date: 2022-01-02,
}
であればアップロードできますが(メタデータのスキーマが等しい)、
{
id: 1,
body: テスト1,
date: 2022-01-01,
},
{
id: 2,
body: テスト2,
}
はアップロードできません(ID 1 のメタデータには date
があるが、ID 2 には無い)。
以下の例は ID の重複があり、正しく動作しない恐れがあります。
{
id: 1,
body: テスト1,
date: 2022-01-01,
},
{
id: 1,
body: テスト2,
date: 2022-01-02,
}
CSV ファイル
CSV ファイルの場合、ファイルの一行目にヘッダ行を付けてください。Excel などでは自動で付けられることもあります。 たとえば
id,body,date,author
1,テスト1,2022-01-01,John Doe
2,テスト2,2022-01-02,John Doe
3,テスト3,2022-01-02,Jane Doe
という CSV ファイルであれば、id
、body
、date
、author
という4つのメタデータを持ちます。
メタデータの順番は任意ですが、必ず id
と body
を入れてください。
また実装の都合上、title = id
として扱われます。
したがって、メタデータに title
を含めたい場合は別の名前のフィールドにしてください。
この仕様は今後変わる可能性があります。
JSON ファイル
JSON ファイルの中身は、ドキュメントの配列を表す JSON になります。
ダブルクォーテーション("
)を忘れないようにしてください。
メタデータについては、CSV ファイルと同様の制約を受けます。詳しくは CSV ファイルの項を参照してください。
例:
[
{
"id": "1",
"body": "テスト1",
"date": "2022-01-01"
},
{
"id": "1",
"body": "テスト2",
"date": "2022-01-02"
}
]
テクストファイル
テクストファイルの場合、ファイル名がそのまま id
となり、ファイルの中身が body
となります。
それ以外のメタデータは存在しません。