自然言語処理ツール
京都テキスト解析ツールキット KyTea は、日本語など、
単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。
主に以下の処理ができます。
モデル
- 23G (KyTea-0.4.7 同梱モデルに国立歴史民俗博物館の協力により日本史の用語を強化したモデル)
超短単位
KyTeaの同梱モデルは、概ね国立国語研究所の
短単位です。
違いは以下の通りです。
- 活用語の語尾を分割して別単位としている
- 語尾という品詞を追加している
この変更によって、文生成などの応用において、小さい語彙で高い被覆率を実現することができます。
例えば、動詞の「歩く」は、
- 歩か (ない)
- 歩き (ます)
- 歩く
- 歩け (ば)
- 歩け
- 歩こ (う)
というように活用し、5つの表記となります。
文生成システムにおいてこれら全ての表記が語彙に含まれることが望まれます。
超短単位では、これを語幹「歩」と語尾群として語彙に含めます。
語尾群は、カ行五段活用の他の動詞と共通なので、カ行五段活用の他の動詞を語彙に加えるは、語幹のみを加えることで
全ての活用形を被覆できます。
これは他の活用型についても同じです。
一方、解析の場合には、活用語は語幹が表記となるため、少し分かりにくくなります。
例えば動詞「歩く」の頻度は「歩」の頻度として集計されます。
また、終止形の頻度は「歩-く」という2単位の連続(2-gram)の頻度として集計されます。
N3ER (えぬすりーえぬいーあーる)
!!Under Construction!!
- 用語(単語列とクラスの組)認識
- PWNER の後継
ニューラルネット(Bi-LSTM)に基づくようになりました。辞書追加の機能など現在鋭意改良中です。
PWNER (ぴーだぶりゅーえぬいーあーる)
デフォルトモデルの単位は超短単位で、KyTea の出力を使うとよいでしょう。
EDA は単語係り受け解析器です。
日本語のように左から右に行く係り受けや、英語のように左や右に行く係り受けの両方を扱えます。
デフォルトモデルの単位は単語で、KyTea の出力を使うとよいでしょう。
Sennはオープンソースの IME です。
Senn のかな漢字変換エンジンを研究室のリソースを使ってビルドし、パッケージしたものを公開しています。
パッケージのダウンロードは こちらから
なお、かな漢字変換エンジンのビルドにあたって以下のリソースを用いています。
MS-IME 用辞書
SENNの学習データから MS-IME 用辞書も生成しています。
- (To Appear) 日本史用語辞書 (国立歴史民俗博物館の協力による)
CaPSLはCRFと点予測のマルチタスク学習による系列ラベリングツールです。
点予測での学習を行なうことで、部分的アノテーションによる学習を可能にしています。
- コーパスアノテーション
- 単語境界
- 単語の品詞・読み
- 固有表現タグ
- 単語の係り受け
PALIN (ぱりん, coming soon)
- 未知語抽出 (文字列, 品詞)
- 固有表現 (単語列, 固有表現クラス)
?? (??, under construction)
NLP技術のデモのためにツイッターアカウントを運用しています.
レシピに対する言語処理ツールなど
- 単語分割・品詞推定・読み推定
- レシピ用語(r-NE)認識
-
利用例1: テキスト解析
文から単語の係り受け構造を推定する。
- KyTea (単語分割, 品詞推定)
- ?? (NER, optional)
- EDA
利用例2: 言語モデル作成
音声認識や仮名漢字変換の言語モデルを作成する。
- KyTea (単語分割, 読み推定)
- Kagamine (連語獲得, クラスタリング, optional)
- LM tool (KyLM, SRI LM, Palm Kit, ...)
利用例3: 単語分割・品詞推定の分野適応
対象のテキストの単語分割や品詞推定の精度が低いと感じる場合に精度向上を行います。
固有表現抽出でも同様の手順に従います。
- PALIN (未知語候補抽出)
- PNAT (コーパスの部分的アノテーション)
- KyTea 再学習 (単語分割, 品詞推定; 素性頻度ファイルの利用)
- KyTea (単語分割, 品詞推定)
Last Change: 2015/05/20 by Shinsuke MORI