京都大学 学術情報メディアセンター 自然言語処理グループ

フローグラフコーパス (FG corpus) English

概要

自然言語処理の究極の目標は言語の「理解」です。

しかし、「理解」は定義すらはっきりしない困難な課題です。 この問題に挑戦するために、手続き文書に注目した研究を行っています。 手続き文書は何をどうするかを書いているので、その構造をグラフで表現できます。

手続き文書としては、まずは料理レシピを対象としています。 料理レシピは典型的な手続き文書で、書店でも大きな場所を占めています。 また、多くのインターネットサイトがあります。 調理映像を録りやすいという利点もあります。

「理解」の表現形式として、フローグラフを定義しました。 レシピテキストにフローグラフを付与したコーパスを作成・公開しています。 フローグラフの表現を用いることで以下のような様々な応用が可能になります。

この他にも様々な応用が考えられるでしょう。

レシピフローグラフの定義

多くのレシピは、右のような の形式に従って記述されています。レシピフローグラフはこのうちの「調理手順」の意味内容の表現形式で、 からなる根つき無閉路有向グラフ (rooted DAG) であらわされます。無閉路有向グラフの根 (上図では「焼/Ac」) が、最終的に生成される料理に対応します。

頂点: レシピ用語

レシピ用語の一覧
タグ意味 備考
F 食材 代名詞・中間・最終生成物を含む
T 道具 調理道具や器など(代名詞を含む)
D 継続時間 概数表現を含む
Q 分量 概数表現を含む
Ac 調理者の動作語幹のみ
Af 食材の動作 語幹のみ
Sf 食材の状態 味、切り方など
St 道具の状態 温度設定など
フローグラフの頂点は、食材や動作を表す単語列 (レシピ用語, r-NE) とタグの組です。 上のフローグラフ図では、頂点は背景に色がついている単語列によって示されています。

一般的な固有表現と同様に、単語中に用語の境界はないとしており、用語が入れ子関係になることもありません。

食材や道具といった名詞句だけではなく、調理者の動作のような用言もレシピ用語としています。 同一性の簡便な判定などのために、活用語は語幹のみをレシピ用語としています。 主に「Ac:調理者の動作」と「Af:食材の動作」が関係します。

フローグラフコーパスにはレシピ用語(頂点)とその関係(辺)の情報が付与されており、レシピ用語情報のみを付与したコーパスも公開しています。 これを用いて固有表現認識ツール (PWNER) を学習すると、レシピ用語を自動的に認識することが可能となります。

辺: レシピ用語間の関係

辺のラベルの一覧
ラベル意味 概説
Agent主語(ガ格)主に「が」や「は」で表される動作と主語の関係
Targ対象(ヲ格)主に「を」で表される動作と対象の関係
Dest方向(ニ格)主に「に」で表される動作と方向や場所の関係
T-comp道具デ主に「で」で表される動作とその手段の関係
F-comp食材デ主に「で」で表される動作とその手段の関係
F-eq同一の食材既出の食材とそれに対する参照表現
F-part-of食材の一部既出の食材とその一部に対する参照表現
F-set食材の集合既出の複数種の食材とその全体に対する参照表現
T-eq同一の道具既出の道具とそれに対する参照表現
T-part-of道具の一部既出の道具とその一部に対する参照表現
A-eq同一の動作既出の動作とそれに対する参照表現
V-tm動作のタイミング別の動作を行う条件やタイミングを示す句の動詞
other-modその他の修飾語句
フローグラフの辺は、用語間に関係があることを表します。 上のフローグラフ図では、辺は矢印によって示されています。 関係は大きく分けて以下の4つがあります(部分グラフの資料)。
  1. 述語項関係 (ゼロ照応も含む)

    調理手順の内容は主に「食材」と「動作」の関係であるため、これらの述語項関係は最も重要です。Agent, Targ, Dest, T-comp, F-compが該当します。

  2. 2つの食材や道具の参照関係

    既に出現している食材や、食材を加工した物体を指すレシピ用語を関連付けます。F-eq, F-part-of, F-set, T-eq, T-part-ofが該当します。

  3. 2つの動作の関係

    実際には一度しか行われない動作を繰り返して記述している部分や、動作のタイミングを関連付けます。A-eq, V-tmが該当します。

  4. その他

    その他の修飾関係をOther-modとしています。

辺は同一文内の頂点の間だけではなく、異なる文の頂点の間に対しても付与されます。 したがって、調理手順全体の構造を表現することが可能になります。 例えば、各食材からの辺を辿ることで、その食材がどうなっていくのかがわかります。

(注) 2015年6月以前に発表した論文では主語(ガ格)をsubj、対象(ヲ格)をd-obj、方向(二格)を i-objとしていました。 実際には深層格なので、それぞれAgent、Targ、Destにラベルを変更しました。

ダウンロード

フローグラフコーパス Ver.2.0 (under construction)

ここではフローグラフコーパス作成用ツールセットを配布しています。 本ツールセットにレシピの本文は含まれておらず、アノテーション情報のみが含まれています。 レシピの本文は「クックパッドデータセット」から取得してください。 この両方があれば、以下のフローグラフコーパスレシピ用語コーパスがお手元に構築できます。 詳細はツールセット内の 00readme.txt をご覧ください。

フローグラフコーパス

調理手順がフローグラフで表現されています(食材リストは含みません)。 実際のファイルは右図のような csv 形式になっています。 1レシピにつき1ファイルあり、1行が1頂点に対応します。 右図の左から順に

となっています。

レシピ用語コーパス

調理手順に対して、人手で用語をアノテーションした結果です。 実際のファイルは右の図のような tree 形式 (係り受けエディターPNATに対応) になっています。 1レシピにつき1ファイルあり、1行が1単語に対応します。 右図の左から順に

となっています。

諸元

フローグラフコーパス Ver.2.0 の諸元
出典レシピ数 文数 レシピ用語数 単語数 文字数
レシピ用語コーパス無作為抽出4003,05817,63555,85284,536
肉じゃが362591,6044,6907,024
筑前煮11176240341
フローグラフコーパス無作為抽出2088678,31623,357140,473

最新版 (Ver.2.0) は右の表の通りです。 フローグラフコーパスは、レシピ用語コーパスのサブセットです。

現在もアノテーション作業を行っています。 レシピ用語コーパスは1,000レシピ、うちフローグラフ付与は500レシピを目標としています。

KUSK Dataset 2014RC

フローグラフのうち 20レシピについては、実際に調理した映像などがあります (KUSK Dataset)。 KUSK Datasetの20レシピに対応するフローグラフコーパスは、本サイトで公開中のデータに含まれています (KUSK Dataset 2014RC クックパッドデータセット対応ID)。

リンク

メンバー

過去のメンバー

参考文献

フローグラフからの手順書の生成,
山崎 健史, 吉野 幸一郎, 前田 浩邦, 笹田 鉄郎, 橋本 敦史, 舩冨 卓哉, 山肩 洋子, 森 信介
情報処理学会論文誌, Vol.57, No.3, pp.849-862, 2016.
A Framework for Procedural Text Understanding,
Hirokuni Maeta, Tetsuro Sasada, Shinsuke Mori
IWPT, 2015.
レシピ用語の定義とその自動認識のためのタグ付与コーパスの構築,
笹田 鉄郎, 森 信介, 山肩 洋子, 前田 浩邦, 河原 達也
言語処理学会, Vol.22, No.2, pp.107-131, 2015.
KUSK Dataset: Toward a Direct Understanding of Recipe Text and Human Cooking Activity Information
Atsushi Hashimoto, Tetsuro Sasada, Yoko Yamakata, Shinsuke Mori, Michihiko Minoh,
CEA, 2014.
Flow Graph Corpus from Recipe Texts
Shinsuke Mori, Hirokuni Maeta, Yoko Yamakata, Tetsuro Sasada,
International Conference on Language Resources and Evaluation, 2014.
レシピテキストのためのフローグラフの定義,
森 信介, 山肩 洋子, 笹田 鉄郎, 前田 浩邦,
情報処理学会自然言語処理研究会, NL-214, 2013.
SOUR CREAM: Toward Semantic Processing of Recipes
Dan Tasse, Noah Smith,
Technical Report of Language Technologies Institute School of Computer Science Carnegie Mellon University.
MILK project
Structural Analysis of Cooking Preparation Steps in Japanese.
Reiko HAMADA, Ichiro IDE, Shuichi SAKAI, Hidehiko TANAKA.
The fifth International Workshop on Information Retrieval with Asian Languages, pp. 157–164. 2000.
Control Structures for Actions in Procedural Texts and PT-Chart
Yoshio Momouchi.
The 8th International Conference on Computational Linguistics, Vol.1, pp. 108–114. 1980.

謝辞

本サイトで公開されているデータはクックパッド株式会社と国立情報学研究所が提供する「クックパッドデータ」を利用しています。

更新履歴

2016/05/12: 参考文献の追加 2015/07/03: MILK 関連の参考文献の追加 2015/07/03: クックパッドデータセットの使い方を追加。
2015/07/01: 辺ラベル名称subj, d-obj, i-objをそれぞれAgent、Targ、Destに変更。
Last Change: 2016/05/12 by Tetsuro Sasada
京都大学 学術情報メディアセンター 自然言語処理グループ