単語列頻度 (TF/IDF)

概要

テキスト中に出現する単語や単語列（単語 N-gram）を表示します。
以下のパラメータがあり、ペインヘッダーから設定可能です。

パラメータ	初期値	説明
N	3	“単語 N-gram” の N を、1 以上 5 以下で指定します。初期値の単語列の例）京都大学前
表示数	20	単語列頻度を上位何件表示させるか、1 以上 1000 以下で指定します。
ソート関数	TF による	単語 N-gram のソート方法を指定します。単語の出現回数（TF）による比較か、TF-IDF による比較かを選択できます。
品詞フィルター	内容語のみ表示	特定の品詞のみを表示、もしくは除外します。

品詞についての詳細はこちらを参照してください。

用語について

単語 N-gram：連続した N 個の単語列
TF (Term Frequency)：プロジェクトの全テキスト内における該当の単語列の出現回数
DF (Document Frequency)：該当の単語列が 1 箇所以上含まれるドキュメントの数
IDF (Inverse Document Frequency)：該当の単語列がドキュメント内に出現する稀少度（低頻度率）を示す数値
TF-IDF：TF と IDF の値を掛け合わせて計算。値が大きい = 頻出するが稀少性も高い単語列

定義

全ドキュメントの個数を \( D \) とするとき、単語 N-gram \( g \) の IDF は次式で与えられます：

\[ \text{IDF} (g) = \log \frac{D}{\text{DF} (g)}. \]

ここで対数 \( \log \) は自然対数を表します。

さらに \( G \) を全 N-gram の出現回数、つまりすべての N-gram にわたる和 \( G = \sum \text{TF} (g) \) として、N-gram \( g \) の TF-IDF を

\[ \text{TF-IDF} (g) = \frac{\text{TF} (g) \cdot \text{IDF} (g)}{G} \]

で定義します。ただし便宜上、\( D = 0 \) のときは \( \text{TF-IDF} (g) = - \infty \) と定め、\( D \neq 0 \) でかつ \( \text{TF} (g) = \text{DF} (g) = 0 \) のときは \( \text{TF-IDF} (g) = 0 \) と定めます。

Keyboard shortcuts

LiTA User Manual

単語列頻度 (TF/IDF)

概要

用語について

定義