自然言語処理ツール English

KyTea (きゅーてぃー)

京都テキスト解析ツールキット KyTea は、日本語など、 単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 主に以下の処理ができます。

N3ER (えぬすりーえぬいーあーる)

!!Under Construction!!

ニューラルネット(Bi-LSTM)に基づくようになりました。辞書追加の機能など現在鋭意改良中です。

PWNER (ぴーだぶりゅーえぬいーあーる)

デフォルトモデルの単位は超短単位で、KyTea の出力を使うとよいでしょう。

EDA (えだ)

EDA は単語係り受け解析器です。 日本語のように左から右に行く係り受けや、英語のように左や右に行く係り受けの両方を扱えます。

デフォルトモデルの単位は単語で、KyTea の出力を使うとよいでしょう。

Senn (せん)

Sennはオープンソースの IME です。
Senn のかな漢字変換エンジンを研究室のリソースを使ってビルドし、パッケージしたものを公開しています。
パッケージのダウンロードは こちらから

なお、かな漢字変換エンジンのビルドにあたって以下のリソースを用いています。

CaPSL (かぷせる)

CaPSLはCRFと点予測のマルチタスク学習による系列ラベリングツールです。
点予測での学習を行なうことで、部分的アノテーションによる学習を可能にしています。

PNAT (ぴーなっつ)

Kagamine Lin, Ren (仮, かがみね りん, れん)

PALIN (ぱりん, coming soon)

?? (??, under construction)

Twitterデモ

NLP技術のデモのためにツイッターアカウントを運用しています.

レシピ言語処理マニュアル

レシピに対する言語処理ツールなど

利用例1: テキスト解析

文から単語の係り受け構造を推定する。
  1. KyTea (単語分割, 品詞推定)
  2. ?? (NER, optional)
  3. EDA

利用例2: 言語モデル作成

音声認識や仮名漢字変換の言語モデルを作成する。
  1. KyTea (単語分割, 読み推定)
  2. Kagamine (連語獲得, クラスタリング, optional)
  3. LM tool (KyLM, SRI LM, Palm Kit, ...)

利用例3: 単語分割・品詞推定の分野適応

対象のテキストの単語分割や品詞推定の精度が低いと感じる場合に精度向上を行います。 固有表現抽出でも同様の手順に従います。
  1. PALIN (未知語候補抽出)
  2. PNAT (コーパスの部分的アノテーション)
  3. KyTea 再学習 (単語分割, 品詞推定; 素性頻度ファイルの利用)
  4. KyTea (単語分割, 品詞推定)

Last Change: 2015/05/20 by Shinsuke MORI