自然言語処理ツール

京都テキスト解析ツールキット KyTea は、日本語など、
単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。
主に以下の処理ができます。
N3ER (えぬすりーえぬいーあーる)
!!Under Construction!!
- 用語(単語列とクラスの組)認識
- PWNER の後継
ニューラルネット(Bi-LSTM)に基づくようになりました。辞書追加の機能など現在鋭意改良中です。
PWNER (ぴーだぶりゅーえぬいーあーる)
デフォルトモデルの単位は超短単位で、KyTea の出力を使うとよいでしょう。
EDA は単語係り受け解析器です。
日本語のように左から右に行く係り受けや、英語のように左や右に行く係り受けの両方を扱えます。
デフォルトモデルの単位は単語で、KyTea の出力を使うとよいでしょう。
Sennはオープンソースの IME です。
Senn のかな漢字変換エンジンを研究室のリソースを使ってビルドし、パッケージしたものを公開しています。
パッケージのダウンロードは こちらから
なお、かな漢字変換エンジンのビルドにあたって以下のリソースを用いています。
CaPSLはCRFと点予測のマルチタスク学習による系列ラベリングツールです。
点予測での学習を行なうことで、部分的アノテーションによる学習を可能にしています。
- コーパスアノテーション
- 単語境界
- 単語の品詞・読み
- 固有表現タグ
- 単語の係り受け
PALIN (ぱりん, coming soon)
- 未知語抽出 (文字列, 品詞)
- 固有表現 (単語列, 固有表現クラス)
?? (??, under construction)
NLP技術のデモのためにツイッターアカウントを運用しています.
レシピに対する言語処理ツールなど
- 単語分割・品詞推定・読み推定
- レシピ用語(r-NE)認識
-
利用例1: テキスト解析
文から単語の係り受け構造を推定する。
- KyTea (単語分割, 品詞推定)
- ?? (NER, optional)
- EDA
利用例2: 言語モデル作成
音声認識や仮名漢字変換の言語モデルを作成する。
- KyTea (単語分割, 読み推定)
- Kagamine (連語獲得, クラスタリング, optional)
- LM tool (KyLM, SRI LM, Palm Kit, ...)
利用例3: 単語分割・品詞推定の分野適応
対象のテキストの単語分割や品詞推定の精度が低いと感じる場合に精度向上を行います。
固有表現抽出でも同様の手順に従います。
- PALIN (未知語候補抽出)
- PNAT (コーパスの部分的アノテーション)
- KyTea 再学習 (単語分割, 品詞推定; 素性頻度ファイルの利用)
- KyTea (単語分割, 品詞推定)
Last Change: 2015/05/20 by Shinsuke MORI