アノテーションについて

EDAに戻る

このページではEDAのサポートするアノテーションの形式について説明します。

フルアノテーション

アノテーションしない場合は代わりに-1に設定してください。

  ID=000001
  001 002 私   代名詞  0
  002 005 は   助詞   0
  003 004 リンゴ 名詞   0
  004 005 を   助詞   0
  005 006 食べ  動詞   0
  006 007 る   語尾   0
  007  -1 。   補助記号 0

部分的アノテーション

  ID=000001
  001  -1 私   代名詞  0
  002 005 は   助詞   0
  003  -1 リンゴ 名詞   0
  004  -1 を   助詞   0
  005  -1 食べ  動詞   0
  006  -1 る   語尾   0
  007  -1 。   補助記号 0

係り受けの方向

edaはデフォルトで左から右や右から左の両方の係り受けが付与されたコーパスから学習できます。ルートは0としています

  1 John john _ _ _ 2 _
  2 saw see _ _ _ 0 _
  3 Mary mary _ _ _ 2 _

--left-to-rightオプションを与えると、edaは学習コーパスには左から右の係り受けだけが付与されているとして扱います。 このようなコーパスは、各単語の係り先の添え字は現在の単語の添え字よりも大きくなっていないといけません。 また、文末の単語の係り先の添え字は必ず-1になっていないといけません。

  ID=000001
  001 002 私   代名詞  0
  002 005 は   助詞   0
  003 004 リンゴ 名詞   0
  004 005 を   助詞   0
  005 006 食べ  動詞   0
  006 007 る   語尾   0
  007  -1 。   補助記号 0