UniDic++(仮) (ゆにでぃっくぷらすぷらす)

はじめに

現代日本語書き言葉均衡コーパス (BCCWJ) と辞書 UniDic を言語資源として構築した形態素解析器の精度は非常に高いです。それでも、全人類の知識を表現する単語を被覆するには遠く及ばないです。学術的あるいは文化的な事柄についての用語がその代表ですが、企業の製品名やサービス名も重要な用語です。アニメや小説のタイトル、その中の架空の人物や概念の名前も等しく重要です。

形態素解析器がこれらに対応できるように、このページでは辞書やコーパスを提供します。単語の定義は、国立国語研究所の短単位に準拠します。充実した基準書 (参考文献欄参照) もある斉一な単位です。 BCCWJ や UniDic はこれに準拠しています。これらと合わせて用いると様々な分野のテキストの形態素解析が高い精度でできます。

名前は UniDic++ (仮) としています。いずれ本家の国語研に吸収されるとよいと思っています。そういう理由で「(仮)」をつけています。そのときのためにも、より多くのエントリーや文脈をより正確に追加していきます。

ダウンロード

!! Under Construction !! いまがんばってます ^^)。

配布するものは2種類があります。それぞれ中に3つのファイルがあります。 level0 は自動収集、level1 は機械チェック済み、level2 は人手チェック済みです。

UniDic+ (文脈なし): 通常の辞書で、表記とその他の情報の組です。
UniDic++ (文脈あり): さらに、実際の出現での前後の文脈がつきます。認証があります。

辞書に単語を追加することで形態素解析の精度は基本的には上がるのですが、現在の精度は非常に高く、別の箇所での誤り(副作用)が避けられません。文脈をつけておいて、形態素解析器にそれを学習させると副作用が避けられます (詳しくは LREC2014 のスライドをご覧ください)。一方で、文脈は元の文の一部なので、意図せず著作権を侵害する恐れがあります。そのため文脈ありの UniDic++ には認証を設けております。

UniDic++ は、KyTea の配布モデルに定期的に反映しています。配布版と最新の UniDic++ の差は小さいので、UniDic+ の追加で相当カバーできます。

諸元

収録語数
種別	エントリー数	品詞	読み
人名(姓)	119,906	○	○
人名(名)	79,000	○	○
...	...	..	..

エントリーの単位は、国立国語研究所の短単位です。活用語尾を分割しているので、活用語の追加に際してはご注意ください。 !! Under Construction !!

表記を見出しとして、主に次の情報が付与されています。

表記
品詞 (大分類)
発音 (音声認識・合成用の読み)
入力記号列 (仮名漢字変換用の読み)

情報源

様々なところから単語や用例を収集しています。

Wikipedia
特許
医療
レシピフローグラフコーパス (r-FG corpus)
将棋の解説
その他

協力の募集

いろいろな方法で協力して頂けます。クレジットもあり／なしのいずれでもよいです。

共同研究/開発依頼
研究や開発の目的で、あるドメインの形態素解析精度を上げたい場合はお知らせください。
アルバイト
随時受け付けしています。
単語や用例のポスト
ページを作ります !! Under Construction !!

過去の事例

共同研究/開発依頼
- 特許文書
- 医療
- レシピ
- 将棋の解説文
アルバイト
- T氏
- M氏
- S氏
単語や用例のポスト
- T氏
- N氏
- 自分

KyTeaでの利用

KyTea での利用は以下の手順で行ってください。

KyTea の素性頻度ファイル (FILENAME.feat) のダウンロード
UniDic+ のダウンロード
% train-kytea -feat FILENAME.feat -model MODEL.kbm -dict 2-level-unidic+.dict

参考文献

Language Resource Addition: Dictionary or Corpus?
Shinsuke Mori, Graham Neubig
LREC, pp.1631-1636, 2014.
Slide
点予測による単語分割
森信介, Neubig Graham, 坪井祐太
情報処理学会論文誌, Vol.52, No.10, pp.2944-2952, 2011.
Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis
Graham Neubig, Yosuke Nakata, Shinsuke Mori
ACL-HLT, 2011.
Word-based Partial Annotation for Efficient Corpus Construction
Graham NEUBIG, Shinsuke MORI
LREC 2010.
『現代日本語書き言葉均衡コーパス』形態論情報規程集(上)(下),
小椋秀樹, 小磯花絵, 冨士池優美, 宮内佐夜香, 小西光, 原裕
独立行政法人国立国語研究所, 2011.

Last Change: 2015/06/18 by Shinsuke MORI