京都大学 学術情報メディアセンター 自然言語処理グループ

将棋コーパス English

概要

近年では、現実世界の物事を自然言語によって自動的に記述することに注目が集まっています。 我々は、言語の曖昧性にのみに集中するため、曖昧性の少ないゲームの局面として、将棋に注目をしました。 将棋の局面とそれに対応するコメントを収集し、コーパスを作成しました。 また、将棋に対して分野特有の固有表現を定義し、コーパスの一部、単語分割を行った2,508文に対して人手で固有表現をアノテーションしました。 さらに、そのデータとBCCWJを使って学習したKyTeaPWNERによって固有表現タグをコーパスの残り、742,286文に付与しています。

収集したコメント及び局面には以下のような特徴があります。

さらに、モダリティ表現のアノテーションも行いました。 モダリティ表現は、否定や推量、仮定などの情報発信者の態度の表出であり、 実世界(盤面)を参照しつつモダリティ表現を解析する研究の題材とすることができます。

このページでは上記のコーパスについての詳しい説明を行っています。

コメントについて

将棋ファンのために、プロ同士の対局のコマの動きの意図や、現局面においてどちらが有利かといったこと、次の予想手などをプロの棋士が解説しています。 具体的な例としては、「△1四香とすれば決戦」といったものです。 これらのコメントは、主に将棋のコマの動きについて説明するものですが、棋士のプロフィールといった、局面そのものとは関係ないことについて説明している場合などがあります。 これらのコメントは概ね文法的に正しいと思われ、ランダムに100文を選んで確認したところ、文法的なミスやタイプミスは存在していませんでした。

将棋の固有表現

コメントは、多くの将棋特有の固有表現(単語、あるいは複合語)を持っており、これらの固有表現タグは特徴ごとにいくつかのグループにカテゴライズできます。 将棋の固有表現について定義し、2,508文について人手でアノテーションを行いました。以下では、固有表現タグをグループごとにまとめます。

動きの表記: 将棋のコマの動きに関しては、記録用に厳格に書き方が決まっており、それに関係する固有表現タグです。
Tu: 手番/ 例: 先手, 後手, ▲, △ (以上の4つのみ)
Po: 位置 /将棋の局面のマスの9×9=81通りと「駒台」「同」など小数の例外のみ
Pi: 駒 / 例: 銀、歩兵など。
Ps: 駒の指定 / 特定の位置に同じ種類のコマが移動可能である場合、どのコマが移動したかを記述するため"右"などを付け加える。例: 右, 直
Mc: 動きの明確化 / 例: 成, 不成 (以上の2つのみ)
動きの名称: いくつかの特定のコマの動きに関しては、特定の表現が用いられます。
Mn: 動きの名称 / 例: 王手
Me: 動きの評価 / 例: 好手
戦型、囲い
St: 戦型 / 例: ゴキゲン中飛車 (棋士名+流も含む)
Ca: 囲い / 例: 矢倉、 美濃囲い
評価
Ev: 形勢評価 / 局面全体の判断のみ
Ee: 評価要素 / 部分の評価のみ 例: 駒得、配置が良い
盤上の配置: 盤面の状態についての記述に関する固有表現タグです。
Re: 盤面の領域 / 例: 中央, 駒台, 4筋, 3段目
Ph: 対局の進行 / 例: 序盤, 中盤, 終盤
Pa: 駒の属性 / 特定のコマの動きを表現するのに使うタグ。例えば、角や飛車といったコマの動ける範囲を"道"と表現す。 例:道, 利き, 頭
Pq: 駒の数 / 1枚, 切れ
盤外について: コメント文には、盤上の情報のみならず、対局者の情報など局面と直接関係のない記述も含まれる。
Hu: 人 / 対局者や解説者を含む人など。また、その人のタイトル(名人など)や、検討室といった単語も含まれる。なお、石田流といった、人名を含む戦型はここには含まない。
Ti: 時間 / 概数表現を含む。例: 長時間
動作
Ac: 対局者が主語の述語 / 例: 捨てる
Ap: 駒が主語の述語 / 例: 下がった
Ao: その他の表現が主語の述語
その他
Ot: その他 / 例:戦型

コーパス

固有表現のアノテーションの方法として、BIOタグシステムを採用しました。 B, I, Oがそれぞれ begin, intermediate, other を示しています。 具体的な例として、以下を示します。

広瀬/Hu-B は/O 対/O ゴ/St-B キゲン/St-I 中/St-I 飛車/St-I の/O 超速St-B/ ▲/St-I 3七/St-I 銀/St-I 戦法/St-I を/O 採用/Ac-) し/O た/O 。/O

人手で固有表現タグをアノテーションしたもの(manu)と、それらを用いて学習したモデルによって固有表現タグを付与したコーパス(auto)が存在しています。 なお、固有表現タグを付与する際、単語分割を必要とするため、BCCWJを学習コーパスとしたKyTeaを利用しています。 また、固有表現認識機としてPWNERを利用しています。 コーパスサイズについては、以下の表を参照してください。

コーパスサイズについて

TrainingPrecisionRecallF-measure
BCCWJ0.8720.9070.889
BCCWJ + shogi0.9830.9830.983

局面について

  • ファイルには、コメント文に対応する局面(SFEN文字列)と、それを素性にしたものが含まれています。 詳しい使い方は付属のreadme.txtに書いてあります。

    局面と固有表現の評価データ

  • 上記のデータの他に、St, Ca の固有表現と、局面が対応しているかを評価したデータセットがあります。
  • フルテキストサーチなどを用いて、St, Ca タグを持つ固有表現と対応していそうな局面を抽出し、 その固有表現と局面が対応していることを人手でアノテーションを行いました。
  • 評価は以下です。

  • 本データは上記のデータに含まれています。

    ファイル

  • ファイルについて希望される方はご連絡お願いします。

    リンク

  • 自然言語処理
  • 過去の配布版

    メンバー

    参考文献

    将棋解説文へのモダリティ情報アノテーション
    松吉 俊, 村脇 有吾, 亀甲 博貴, 森 信介
    情報処理学会自然言語処理研究会, NL-233, 2017.
    A Japanese Chess Commentary Corpus,
    Shinsuke Mori, John Richardson, Atsushi Ushiku, Tetsuro Sasada, Hirotaka Kameko, and Yoshimasa Tsuruoka.
    LREC, 2016.

    謝辞

    更新履歴

    2017/11/02 参考文献の追加
    2017/10/02 モダリティーについての加筆
    2017/02/15 データの追加など
    2016/04/04 ページ作成

    Last Change: 2017/11/02 by Shinsuke Mori
    京都大学 学術情報メディアセンター 大規模テキストアーカイブ研究分野