単語列頻度 (TF/IDF)
概要
テキスト中に出現する単語や単語列(単語 N-gram)を表示します。
以下のパラメータがあり、ペインヘッダーから設定可能です。
パラメータ | 初期値 | 説明 |
---|---|---|
N | 3 | "単語 N-gram" の N を、1 以上 5 以下で指定します。 初期値の単語列の例)京都 大学 前 |
表示数 | 20 | 単語列頻度を上位何件表示させるか、1 以上 1000 以下で指定します。 |
ソート関数 | TF による | 単語 N-gram のソート方法を指定します。 単語の出現回数(TF)による比較か、TF-IDF による比較かを選択できます。 |
品詞フィルター | 内容語のみ表示 | 特定の品詞のみを表示、もしくは除外します。 |
品詞についての詳細はこちらを参照してください。
用語について
- 単語 N-gram:連続した N 個の単語列
- TF (Term Frequency):プロジェクトの全テキスト内における該当の単語列の出現回数
- DF (Document Frequency):該当の単語列が 1 箇所以上含まれるドキュメントの数
- IDF (Inverse Document Frequency):該当の単語列がドキュメント内に出現する稀少度(低頻度率)を示す数値
- TF-IDF:TF と IDF の値を掛け合わせて計算。値が大きい = 頻出するが稀少性も高い単語列
定義
全ドキュメントの個数を \( D \) とするとき、単語 N-gram \( g \) の IDF は次式で与えられます:
\[ \text{IDF} (g) = \log \frac{D}{\text{DF} (g)}. \]
ここで対数 \( \log \) は自然対数を表します。
さらに \( G \) を全 N-gram の出現回数、つまりすべての N-gram にわたる和 \( G = \sum \text{TF} (g) \) として、N-gram \( g \) の TF-IDF を
\[ \text{TF-IDF} (g) = \frac{\text{TF} (g) \cdot \text{IDF} (g)}{G} \]
で定義します。ただし便宜上、\( D = 0 \) のときは \( \text{TF-IDF} (g) = - \infty \) と定め、\( D \neq 0 \) でかつ \( \text{TF} (g) = \text{DF} (g) = 0 \) のときは \( \text{TF-IDF} (g) = 0 \) と定めます。