日本語 English
PWNER
固有表現の一覧として、組織名(ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT)に人工物 (ARTIFACT)を加えた8種類とされることが一般的です[MUC6, IREX]。
しかしながら、ドメイン特有の用語・単語列を自動認識する場合には一般的な固有表現認識システムでは不適切であるため、それぞれのドメインに適したコーパスと自動認識システムを構築する必要があります。その際には、未知の用語を効率良くカバーすることが課題となります。
このような場合、一部の単語にのみアノテーションした部分的アノテーションコーパスを学習データとして用いることが非常に有効です。
ここで公開しているPWNERは部分的アノテーションコーパスを利用可能とするために、点予測によって各単語のIOB2タグを推定し、動的計画法(DP)やCRFを用いて全体の最適な経路を算出する手法をとっています。
ダウンロード
ここでは目的に応じた種々のNERツールセットを公開しています。
(1)単語分割済みの日本語テキストを入力として、
(2)IOB2形式によるNEタグの自動推定を行い、
(3)動的計画法によってIOB2タグの制約上無効な連接を除去します。
各種NEタグの種類、詳細についてはリンク先を参照してください。
また、IREX-CRLとレシピ用語について、素性頻度ファイルを同梱したPWNER学習ツールセットを公開しています。
- PWNER学習ツールセット
- IREX CRL, レシピ用語の素性頻度ファイルを同梱したPWNERツールセットです。
ユーザーが作成したコーパス・辞書を反映させてPWNERを再学習することが可能です。
また、レシピ言語処理マニュアルで公開されているレシピ用語を対象とした形態素解析モデルの
素性頻度ファイル (362MB, 展開後1.5GB) を公開しています (KyTea 0.4.2以降対応)。
スペース区切りで単語分割されたコーパスをお持ちであれば、
% train-kytea -feat 2014-10-23.kff -full add.word -model new.kbm
などとして再学習することで、自分で用意した単語分割済コーパスの特徴を本モデルに追加で反映させることができます。
- 固有表現認識(IREX-NE)ツールセット
- IREX (NE)で公開されているCRL固有表現データから学習した一般分野NERツールセットです。
本ページ冒頭で挙げた8種類のタグにOPTIONALタグを加えた9種類のタグを推定します。
- レシピ用語自動認識ツールセット
- 将棋用語自動認識ツールセット
- 将棋用語コーパスから学習した、将棋用語タグを自動推定するNERツールセットです。
使い方・必要環境
- 使い方: PWNERツールセットを任意の場所に展開してください。
- % ./ner.sh でサンプルテキスト(Test.word)に対して自動的にNER処理を行います。
- 入力は単語分割済みテキストです。KyTeaによって自動単語分割を行うことで本ツールセットの入力とすることができます。
- 必要環境: テキスト解析器KyTea ver0.4.2以降, perl 5.8.7 - 5.16.x
入出力形式
IOB2形式
単語/タグの組をスペースで区切る形式です。
本ツールセットはタグ確率の推定に KyTeaを用いており、以下の形式に対応しています。
- テスト入力データ例
- テスト出力・テスト正解データ例
- 塩/F-B こしょう/F-I を/O 振/Ac-B る/O
モデル学習
リンク
参考文献
- A Japanese Chess Commentary Corpus,
- Shinsuke Mori, John Richardson, Atsushi Ushiku, Tetsuro Sasada, Hirotaka Kameko, Yoshimasa Tsuruoka,
- LREC, 2016.
- Named Entity Recognizer Trainable from Partially Annotated Data,
- Tetsuro Sasada, Shinsuke Mori, Tatsuya Kawahara and Yoko Yamakata,
- PACLING, 2015.
- レシピ用語の定義とその自動認識のためのタグ付与コーパスの構築,
- 笹田 鉄郎, 森 信介, 山肩 洋子, 前田 浩邦, 河原 達也
- 言語処理学会, Vol.22, No.2, pp.107-131, 2015.
- Overview of MUC-7/MET-2
- Nancy A. Chinchor,
- Message Understanding Conference, 1998.
- IREX: IR and IE evaluation project in Japanese, 2000.
- Satoshi Sekine and Hitoshi Isahara.
開発情報
開発チーム
笹田 鉄郎
森信介 (指導、パワーユーザー)
更新履歴
- 2016/09/06 レシピ言語処理マニュアル:形態素解析で使われているモデルの素性頻度ファイルを公開
- 2016/08/12 PWNER 学習ツールセットを公開
- 初リリース