Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

単語列頻度 (TF/IDF)

概要

テキスト中に出現する単語や単語列(単語 N-gram)を表示します。
以下のパラメータがあり、ペインヘッダーから設定可能です。

パラメータ初期値説明
N3"単語 N-gram" の N を、1 以上 5 以下で指定します。
初期値の単語列の例)京都 大学 前
表示数20単語列頻度を上位何件表示させるか、1 以上 1000 以下で指定します。
ソート関数TF による単語 N-gram のソート方法を指定します。
単語の出現回数(TF)による比較か、TF-IDF による比較かを選択できます。
品詞フィルター内容語のみ表示特定の品詞のみを表示、もしくは除外します。

品詞についての詳細はこちらを参照してください。

用語について

  • 単語 N-gram:連続した N 個の単語列
  • TF (Term Frequency):プロジェクトの全テキスト内における該当の単語列の出現回数
  • DF (Document Frequency):該当の単語列が 1 箇所以上含まれるドキュメントの数
  • IDF (Inverse Document Frequency):該当の単語列がドキュメント内に出現する稀少度(低頻度率)を示す数値
  • TF-IDF:TF と IDF の値を掛け合わせて計算。値が大きい = 頻出するが稀少性も高い単語列

定義

全ドキュメントの個数を \( D \) とするとき、単語 N-gram \( g \) の IDF は次式で与えられます:

\[ \text{IDF} (g) = \log \frac{D}{\text{DF} (g)}. \]

ここで対数 \( \log \) は自然対数を表します。

さらに \( G \) を全 N-gram の出現回数、つまりすべての N-gram にわたる和 \( G = \sum \text{TF} (g) \) として、N-gram \( g \) の TF-IDF を

\[ \text{TF-IDF} (g) = \frac{\text{TF} (g) \cdot \text{IDF} (g)}{G} \]

で定義します。ただし便宜上、\( D = 0 \) のときは \( \text{TF-IDF} (g) = - \infty \) と定め、\( D \neq 0 \) でかつ \( \text{TF} (g) = \text{DF} (g) = 0 \) のときは \( \text{TF-IDF} (g) = 0 \) と定めます。