日本語 English

PWNER

固有表現の一覧として、組織名(ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT)に人工物 (ARTIFACT)を加えた8種類とされることが一般的です[MUC6, IREX]。

しかしながら、ドメイン特有の用語・単語列を自動認識する場合には一般的な固有表現認識システムでは不適切であるため、それぞれのドメインに適したコーパスと自動認識システムを構築する必要があります。その際には、未知の用語を効率良くカバーすることが課題となります。 このような場合、一部の単語にのみアノテーションした部分的アノテーションコーパスを学習データとして用いることが非常に有効です。

ここで公開しているPWNERは部分的アノテーションコーパスを利用可能とするために、点予測によって各単語のIOB2タグを推定し、動的計画法(DP)やCRFを用いて全体の最適な経路を算出する手法をとっています。

ダウンロード

ここでは目的に応じた種々のNERツールセットを公開しています。
(1)単語分割済みの日本語テキストを入力として、
(2)IOB2形式によるNEタグの自動推定を行い、
(3)動的計画法によってIOB2タグの制約上無効な連接を除去します。
各種NEタグの種類、詳細についてはリンク先を参照してください。

また、IREX-CRLとレシピ用語について、素性頻度ファイルを同梱したPWNER学習ツールセットを公開しています。

使い方・必要環境

入出力形式

IOB2形式

単語/タグの組をスペースで区切る形式です。 本ツールセットはタグ確率の推定に KyTeaを用いており、以下の形式に対応しています。

モデル学習

リンク

参考文献

A Japanese Chess Commentary Corpus,
Shinsuke Mori, John Richardson, Atsushi Ushiku, Tetsuro Sasada, Hirotaka Kameko, Yoshimasa Tsuruoka,
LREC, 2016.
Named Entity Recognizer Trainable from Partially Annotated Data,
Tetsuro Sasada, Shinsuke Mori, Tatsuya Kawahara and Yoko Yamakata,
PACLING, 2015.
レシピ用語の定義とその自動認識のためのタグ付与コーパスの構築,
笹田 鉄郎, 森 信介, 山肩 洋子, 前田 浩邦, 河原 達也
言語処理学会, Vol.22, No.2, pp.107-131, 2015.
Overview of MUC-7/MET-2
Nancy A. Chinchor,
Message Understanding Conference, 1998.
IREX: IR and IE evaluation project in Japanese, 2000.
Satoshi Sekine and Hitoshi Isahara.

開発情報

開発チーム

笹田 鉄郎
森信介 (指導、パワーユーザー)

更新履歴