このページでEDAと使うためのモデルをダウロードできます。
ここのモデルはEDAの0.3.0以降のみで利用可能です。それより古いバージョンでは利用できません。
最新版はこちらです。
過去のリリース:
EDA model 2014/07/27 EDA model 2013/09/06--left-to-rightオプションで学習されており、左から右の係り受けのみを扱います。文字コードはUTF-8です。
2017/07/13 のモデルです。 現代日本語書き言葉均衡コーパスや新聞を使っています。統計情報については以下の通りです。
コーパス量の増加の他、学習時のいくつかのテクニックにより、精度が向上しました。
出典 | ID | 文数 | 単語数 | 文字数 |
---|---|---|---|---|
Yahoo!知恵袋 | BCCWJ OC | 2,114 | 42,924 | 60,187 |
白書 | BCCWJ OW | 2,056 | 86,687 | 124,813 |
Yahoo! ブログ | BCCWJ OY | 2,367 | 40,802 | 59,821 |
書籍 | BCCWJ PB | 2,765 | 64,829 | 89,706 |
雑誌 | BCCWJ PM | 3,009 | 50,215 | 75,641 |
新聞 | BCCWJ PN | 3,095 | 69,940 | 102,441 |
英文用例 | EHJ | 13,000 | 164,397 | 220,146 |
日本経済新聞 | NKN | 10,025 | 292,462 | 442,262 |
レシピ | RCP | 724 | 13,147 | 19,975 |
論文抄録 | JNL | 354 | 13,379 | 22,202 |
発明開示書(特許) | NPT | 2000 | 81,705 | 127,803 |
合計 | 41,509 | 920,487 | 1,334,997 | |
以下の精度はテストコーパス分だけ除いて学習した結果になっています。(精度を測るにあたっては、句読点での係り受けを除外しました。)
テストコーパス | 精度[%] |
---|---|
BCCWJ OC | 97.65 |
BCCWJ OW | 95.49 |
BCCWJ OY | 96.73 |
BCCWJ PB | 96.71 |
BCCWJ PM | 98.49 |
BCCWJ PN | 94.36 |
EHJ | 97.23 |
NKN | 93.48 |
RCP | 96.13 |
JNL | 95.10 |
NPT | 95.38 |