EDAのモデル

EDAに戻る

このページでEDAと使うためのモデルをダウロードできます。

ここのモデルはEDAの0.3.0以降のみで利用可能です。それより古いバージョンでは利用できません。

日本語解析用モデル

最新版はこちらです。

過去のリリース:

EDA model 2014/07/27

EDA model 2013/09/06

--left-to-rightオプションで学習されており、左から右の係り受けのみを扱います。文字コードはUTF-8です。

使用したコーパス

2017/07/13 のモデルです。 現代日本語書き言葉均衡コーパスや新聞を使っています。統計情報については以下の通りです。

コーパス量の増加の他、学習時のいくつかのテクニックにより、精度が向上しました。

出典 ID 文数 単語数 文字数
Yahoo!知恵袋 BCCWJ OC 2,114 42,924 60,187
白書 BCCWJ OW 2,056 86,687 124,813
Yahoo! ブログ BCCWJ OY 2,367 40,802 59,821
書籍 BCCWJ PB 2,765 64,829 89,706
雑誌 BCCWJ PM 3,009 50,215 75,641
新聞 BCCWJ PN 3,095 69,940 102,441
英文用例 EHJ 13,000 164,397 220,146
日本経済新聞 NKN 10,025 292,462 442,262
レシピ RCP 724 13,147 19,975
論文抄録 JNL 354 13,379 22,202
発明開示書(特許) NPT 2000 81,705 127,803
合計 41,509 920,487 1,334,997

精度

以下の精度はテストコーパス分だけ除いて学習した結果になっています。(精度を測るにあたっては、句読点での係り受けを除外しました。)

テストコーパス 精度[%]
BCCWJ OC 97.65
BCCWJ OW 95.49
BCCWJ OY 96.73
BCCWJ PB 96.71
BCCWJ PM 98.49
BCCWJ PN 94.36
EHJ 97.23
NKN 93.48
RCP 96.13
JNL 95.10
NPT 95.38