トピックモデル (LDA; Latent Dirichlet Allocation)
概要
トピックモデルの一つである (LDA; Latent Dirichlet Allocation) を計算して結果を表示します。 ドキュメントは複数のトピック(共通性のあるテーマ)から構成されると仮定し、それぞれのトピックが生成する(トピックに分類される)単語の確率分布を推定する手法で、 ドキュメントの特徴や類似性を判別できます。
ペインヘッダー内の機能
トピック
トピック数が項目となっているドロップダウンがペインヘッダーにあります。 この項目を選択することで、そのトピック数での LDA の結果が表示されます。
eval.
以下の値を、各トピック数での LDA の計算毎に表示します。
- LDA による perplexity
- トピックが生成する単語の一貫性 (topic coherence)
ダウンロード
ダウンロードアイコンから、計算結果や eval. のデータは CSV 形式でダウンロードできます。
パラメータ設定の確認と再計算
設定アイコンから LDA のパラメータ設定の確認と再計算を行うことができます。
パラメータ設定では以下の項目があります。
- 品詞
- トピック数
- 生成する単語の出現条件
「再計算を開始する」ボタンを押すと、設定されたパラメータで LDA を再計算します。
計算結果の表示
計算結果は以下の通りに表示されます。 各項目は「on/off」ボタンで表示・非表示を切り替えることができます。
時系列グラフ
ドキュメントに日付が紐付いている (メタデータ“date“が存在する) 場合、ドキュメントに対する各トピックの確率を日付ごとに足し合わせた値をグラフで表示します。 グラフの縦軸は確率を足し合わせた数値、横軸は日付です。
日付の設定については時間・日付についてを参照してください。
トピック/単語
トピックが生成する単語と生成確率を、生成確率の大きい単語からトピック毎に表示します。
最初は5つが表示されています。数字を入力して「update」ボタンを押すことで表示される単語数を変えることができます。
トピック/ドキュメント
ドキュメント毎のトピックの分布を表示します。
ドキュメントに日付が紐付いている場合、表示するドキュメントを日付で絞り込むことができます。