近年では、現実世界の物事を自然言語によって自動的に記述することに注目が集まっています。
我々は、言語の曖昧性にのみに集中するため、曖昧性の少ないゲームの局面として、将棋に注目をしました。
将棋の局面とそれに対応するコメントを収集し、コーパスを作成しました。
また、将棋に対して分野特有の固有表現を定義し、コーパスの一部、単語分割を行った2,508文に対して人手で固有表現をアノテーションしました。
さらに、そのデータとBCCWJを使って学習したKyTeaとPWNERによって固有表現タグをコーパスの残り、742,286文に付与しています。
収集したコメント及び局面には以下のような特徴があります。
さらに、モダリティ表現のアノテーションも行いました。 モダリティ表現は、否定や推量、仮定などの情報発信者の態度の表出であり、 実世界(盤面)を参照しつつモダリティ表現を解析する研究の題材とすることができます。
このページでは上記のコーパスについての詳しい説明を行っています。
| 動きの表記: 将棋のコマの動きに関しては、記録用に厳格に書き方が決まっており、それに関係する固有表現タグです。 |
|---|
| Tu: 手番/ 例: 先手, 後手, ▲, △ (以上の4つのみ) |
| Po: 位置 /将棋の局面のマスの9×9=81通りと「駒台」「同」など小数の例外のみ |
| Pi: 駒 / 例: 銀、歩兵など。 |
| Ps: 駒の指定 / 特定の位置に同じ種類のコマが移動可能である場合、どのコマが移動したかを記述するため"右"などを付け加える。例: 右, 直 |
| Mc: 動きの明確化 / 例: 成, 不成 (以上の2つのみ) |
| 動きの名称: いくつかの特定のコマの動きに関しては、特定の表現が用いられます。 |
| Mn: 動きの名称 / 例: 王手 |
| Me: 動きの評価 / 例: 好手 |
| 戦型、囲い |
| St: 戦型 / 例: ゴキゲン中飛車 (棋士名+流も含む) |
| Ca: 囲い / 例: 矢倉、 美濃囲い |
| 評価 |
| Ev: 形勢評価 / 局面全体の判断のみ |
| Ee: 評価要素 / 部分の評価のみ 例: 駒得、配置が良い |
| 盤上の配置: 盤面の状態についての記述に関する固有表現タグです。 |
| Re: 盤面の領域 / 例: 中央, 駒台, 4筋, 3段目 |
| Ph: 対局の進行 / 例: 序盤, 中盤, 終盤 |
| Pa: 駒の属性 / 特定のコマの動きを表現するのに使うタグ。例えば、角や飛車といったコマの動ける範囲を"道"と表現す。 例:道, 利き, 頭 |
| Pq: 駒の数 / 1枚, 切れ |
| 盤外について: コメント文には、盤上の情報のみならず、対局者の情報など局面と直接関係のない記述も含まれる。 |
| Hu: 人 / 対局者や解説者を含む人など。また、その人のタイトル(名人など)や、検討室といった単語も含まれる。なお、石田流といった、人名を含む戦型はここには含まない。 |
| Ti: 時間 / 概数表現を含む。例: 長時間 |
| 動作 |
| Ac: 対局者が主語の述語 / 例: 捨てる |
| Ap: 駒が主語の述語 / 例: 下がった |
| Ao: その他の表現が主語の述語 |
| その他 |
| Ot: その他 / 例:戦型 |
人手で固有表現タグをアノテーションしたもの(manu)と、それらを用いて学習したモデルによって固有表現タグを付与したコーパス(auto)が存在しています。 なお、固有表現タグを付与する際、単語分割を必要とするため、BCCWJを学習コーパスとしたKyTeaを利用しています。 また、固有表現認識機としてPWNERを利用しています。 コーパスサイズについては、以下の表を参照してください。
| Training | Precision | Recall | F-measure |
|---|---|---|---|
| BCCWJ | 0.872 | 0.907 | 0.889 |
| BCCWJ + shogi | 0.983 | 0.983 | 0.983 |
- 将棋解説文へのモダリティ情報アノテーション
- 松吉 俊, 村脇 有吾, 亀甲 博貴, 森 信介
- 情報処理学会自然言語処理研究会, NL-233, 2017.
- A Japanese Chess Commentary Corpus,
- Shinsuke Mori, John Richardson, Atsushi Ushiku, Tetsuro Sasada, Hirotaka Kameko, and Yoshimasa Tsuruoka.
- LREC, 2016.