現代日本語書き言葉均衡コーパス (BCCWJ) と辞書 UniDic を言語資源として構築した形態素解析器の精度は非常に高いです。 それでも、全人類の知識を表現する単語を被覆するには遠く及ばないです。 学術的あるいは文化的な事柄についての用語がその代表ですが、 企業の製品名やサービス名も重要な用語です。 アニメや小説のタイトル、その中の架空の人物や概念の名前も等しく重要です。
形態素解析器がこれらに対応できるように、このページでは辞書やコーパスを提供します。 単語の定義は、国立国語研究所の短単位に準拠します。 充実した基準書 (参考文献欄参照) もある斉一な単位です。 BCCWJ や UniDic はこれに準拠しています。 これらと合わせて用いると様々な分野のテキストの形態素解析が高い精度でできます。
名前は UniDic++ (仮) としています。 いずれ本家の国語研に吸収されるとよいと思っています。 そういう理由で「(仮)」をつけています。 そのときのためにも、より多くのエントリーや文脈をより正確に追加していきます。
!! Under Construction !! いまがんばってます ^^)。
配布するものは2種類があります。 それぞれ中に3つのファイルがあります。 level0 は自動収集、level1 は機械チェック済み、level2 は人手チェック済みです。
辞書に単語を追加することで形態素解析の精度は基本的には上がるのですが、 現在の精度は非常に高く、別の箇所での誤り(副作用)が避けられません。 文脈をつけておいて、形態素解析器にそれを学習させると副作用が避けられます (詳しくは LREC2014 の スライド をご覧ください)。 一方で、文脈は元の文の一部なので、意図せず著作権を侵害する恐れがあります。 そのため文脈ありの UniDic++ には認証を設けております。UniDic++ は、KyTea の配布モデルに定期的に反映しています。 配布版と最新の UniDic++ の差は小さいので、UniDic+ の追加で相当カバーできます。
種別 | エントリー数 | 品詞 | 読み |
人名(姓) | 119,906 | ○ | ○ |
人名(名) | 79,000 | ○ | ○ |
... | ... | .. | .. |
表記を見出しとして、主に次の情報が付与されています。
- Language Resource Addition: Dictionary or Corpus?
- Shinsuke Mori, Graham Neubig
- LREC, pp.1631-1636, 2014.
- Slide
- 点予測による単語分割
- 森 信介, Neubig Graham, 坪井 祐太
- 情報処理学会論文誌, Vol.52, No.10, pp.2944-2952, 2011.
- Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis
- Graham Neubig, Yosuke Nakata, Shinsuke Mori
- ACL-HLT, 2011.
- Word-based Partial Annotation for Efficient Corpus Construction
- Graham NEUBIG, Shinsuke MORI
- LREC 2010.
- 『現代日本語書き言葉均衡コーパス』形態論情報規程集(上)(下),
- 小椋 秀樹, 小磯 花絵, 冨士池 優美, 宮内 佐夜香, 小西 光, 原 裕
- 独立行政法人国立国語研究所, 2011.