単語係り受けのアノテーション基準

(ver.0.1.1 by Shinsuke Mori; 2012/05/24)

概要

  1. 単語: 単語は国立国語研究所の短単位であるが、活用語尾を分割し、語幹と異なる単語と考える。
    参考文献: 『現代日本語書き言葉均衡コーパス』形態論情報規程集改定版

  2. 係り受け: 単語の間の修飾・被修飾の関係を係り受けと呼ぶ。修飾語が係り元であり、被修飾語が係り先である。これを「->」で表す。例えば、「リンゴを食べる。」の係り受けは、以下のように表される。

    リンゴ -> を -> 食べ -> る -> 。

    連続しない単語間の係り受けは、半角丸括弧を用いて表現する。以下の例のように、開き括弧の直前の「->」は、括弧内の最後の要素への係り受けを表す。

    リンゴ -> を -> ( 今日 -> 食べ ) -> る -> 。

  3. 係り受けが交差する例(以下など)がある。この場合には「->」を用いて記述することはできない。しかし、作業で用いるツールではこれを表すことができ、交差するように記述する。

    ウナギ を 浜松 に 食べ に 行 く
     o ウナギ を -> 食べ
     o 浜松 に -> 行

係り受けの基準

【総則】 (G)

  1. 名詞と格助詞
    名詞から格助詞に係る

    リンゴ -> を
    学校 -> に -> も

  2. 活用語とその語尾
    活用語から語尾に係る
    用言 -> 語尾

    食べ -> る
    食べ -> れ -> ば

  3. 述語項(名詞 -> 格助詞)と述語(動詞, 形容詞, 形状詞)
    格助詞から述語に係る

    私 -> は -> ( リンゴ -> を -> 食べ ) -> る

  4. コピュラ(断定の助動詞「だ」「です」, 英語の A is B.)
    各述語項は断定の助動詞の前の単語に係る

    相手 -> は -> だれ -> だ
    これ -> が -> りんご -> で -> す

  5. 文全体を修飾する単語(接続詞, 副詞)
    文全体を修飾する接続詞や副詞は文の述語の語幹(コピュラの場合は名詞)に係る
    時間を表す名詞も述語に係る

    もちろん -> ( リンゴ -> も -> 食べ ) -> る
    しかし -> ( これ -> は -> ダメ ) -> だ
    今日 -> ( 学校 -> へ -> 行 ) -> く

    接続詞と副詞とで規定を分ける。 接続詞は,係る範囲最大で情報を付与する。

  6. 複合語(複合名詞, 複合動詞)の内部
    構造を考えて係り受けを付与する
    構造は「『現代日本語書き言葉均衡コーパス』形態論情報規程集改定版」に準拠する

    京都 -> 大学 -> ( 工学 -> 研究 -> 科 )
    引っ越 -> し -> て -> 来 -> た

    複合名詞に係る要素は、これが全体に係る場合は、最後の単語に係る
    ただし、複合名詞内の単語にかかる場合もあるので注意すること

    季節 -> の -> ( 挨拶 -> 状 )
    青山 -> 通り -> へ -> の -> 接道 -> 幅

    特許文書における構成要素の番号も複合語の一部と考える

    掛け渡 -> さ -> れ -> た -> (スプリング -> 70)

【並列】 (P)

  1. 名詞句
    並列の前の要素は、並列のマーカー(「と」など)に係り、マーカーは後の要素に係る

    本 -> と -> 鉛筆 -> を

    並列となる要素が単語列の場合、マーカーは後の要素の主辞に係る

    4 -> 時 -> と -> ( 5 -> 時 ) -> の

    ただし、後の要素にもマーカーがある場合は、以下の通りとする

    本 -> と -> ( 鉛筆 -> と ) -> を

    読点を使った並列は、以下のとおりとする

    本 -> 、 -> 鉛筆 -> を

    3つ以上の並列は次の要素に係る

    本 -> 、 -> ( 鉛筆 -> 、 ) -> ボールペン -> を

    一部を修飾する単語がある場合は、それらをグループ化し、その最後の要素に係る

    細い -> ( 鉛筆 -> と -> ボールペン ) と -> 本 -> を

  2. 並列名詞句への修飾
    並列名詞句の全要素を修飾する単語は、最後の要素に係る

    現地 -> メディア -> へ -> の -> ( 投稿 -> ・ -> 出演 ) -> を
    現地 -> メディア -> へ -> の -> ( 投稿 -> ・ -> 出演 -> 等 ) -> を

    並列名詞句の一部を修飾する単語は、その最後の要素に係る

  3. 述語の並列
    前の要素の述部(の最後の単語)は次の述語の語幹に係る
    ※ コピュラ,用言の場合は,近い方に係る

    首相 -> は -> ( 候補 -> 地 -> を -> 詰め ) -> 、 -> ( 九六 -> 年 -> に -> 決定 ) -> する
    これ -> が -> 本 -> で -> 、 -> ( あれ -> が -> ノート ) -> だ

  4. 述語への修飾
    格要素が2つ以上の述語に係り得る場合、最初の述語語幹に係る

    隣 -> に -> 引っ越 -> し -> て -> 来 -> た
    私 -> は -> ( 本 -> を -> 買 ) -> っ -> て -> 読ん -> だ

    複合的形容詞の格要素は複合的形容詞の最初の要素に係る

    彼 -> は-> 飽き -> っぽ -> い
    彼女 -> は -> ( 健康 -> 的 ) -> だ

    ※名詞句との不整合
    以下のように、並列要素がさらに何かに係るときに差異が顕在化する

    私 -> が -> 買 -> っ -> て -> 読ん -> だ -> 本

  5. 文の並列
    1行に2文ある場合は、1文目の句点は最後の文の句点に係る

    私 -> は -> バカ -> だ -> 。 -> ( 彼 -> も -> だ -> 。 )

    (*) 並列の入れ子

    コネクタ -> 1 -> 、 -> ( 保持 -> 部 -> ( 51 -> C -> , -> ( 51 -> d ) )

    (*) 並列のマーカー

    と, 、, ...

【個別の単語】 (W)

  1. 括弧
    開き括弧は対応する閉じ括弧に係る
    括弧内の最後の単語は閉じ括弧に係る
    開き括弧の直前の単語は閉じ括弧に係る
    同じ要素を補足している2つ以上の括弧対がある場合、閉じ括弧は最後の閉じ括弧に係る

  2. 丁寧の「お」
    まず丁寧にしている対象とまとめる

    ここ -> で -> (お -> 待ち) -> くださ -> い

  3. 読点
    読点の係り先は、読点がなかった場合の直前の単語の係り先で、直前の単語は読点に係る

    私 -> は -> バカ -> だ -> 。
    私 -> は -> 、 -> バカ -> だ -> 。
    本 -> と -> ( 鉛筆 -> と ) -> ボールペン -> を
    本 -> と -> 、 -> ( 鉛筆 -> と -> 、 ) -> ボールペン -> を

【その他】 (E)