クックパッドデータセットの使い方

概要

クックパッド株式会社と国立情報学研究所が研究者向けに提供・公開している クックパッドデータセットの使い方(テキスト抽出)と、その内容について簡単に説明します。レシピ用語コーパスならびにフローグラフコーパスはクックパッドデータセットを元に構築されたものです。

クックパッドデータセットからテキストを出力

クックパッドデータセットからレシピの手続き部分のデータを出力するまでのやり方を解説します。
筆者の環境はVine Linux6.3です。圧縮・展開ソフトウェアやMySQLなどをインストールするためのコマンド・パッケージ名は環境ごとに異なりますので、各々の環境に合わせたものを選択してください。

ファイル展開

.7z形式で圧縮されているのでp7zipをインストールし、データを展開
# apt-get install p7zip
$ 7za x cookpad_data.7z

MySQLでデータベースを復元

MySQLをインストール
# apt-get install mysql-server
ここではデータベースの運用はせずにテキスト出力だけを行うので、パスワード設定とユーザ作成は省略します。
気になる場合は設定しておいてください。
$ mysql -u root -p
mysql> create database cookpad;
mysql> use cookpad;
mysql> source cookpad_data.sql;
データベースの復元にはmysqlバックアップファイル (約5.5GB) と同じくらいのディスク容量が必要になります。
データベース復元後、以下のようにしてクックパッドデータのレシピ手順部分のテキストを出力します。
mysql> exit
$ mysql -u root -p -e "select * from steps" cookpad > cookpad_step.tsv

レシピ用語自動認識結果

レシピ数 文数 レシピ用語数 (auto) 単語数 (auto) 文字数
1,715,5898,849,85069,375,683218,936,0851,201,421,545
レシピ手順テキストに対してKyTeaによる自動単語分割とPWNERによる自動レシピ用語認識を行いました。レシピ手順テキストの自動単語分割、ならびに自動レシピ用語認識結果の諸元を右表に示します。以下は各レシピ用語タグごとの用語辞書です (一部のタグはファイルサイズが大きいのでご注意ください)。

リンク


Last Change: 2016/04/07 by Tetsuro Sasada