Wikitext-JA

概要

日本語版WikiText言語モデルデータセットを収集、公開しています。本プロジェクトは「The wikitext long term dependency langage modeling dataset」を参考に実施されました。

具体的には、Wikipediaにて、秀逸な記事（85記事）、および良質な記事（1423記事）と認定されている全ての記事をデータセットとして収集、その統計情報を取得しました。

データセットの詳細

収集した各記事はタイトルおよび項目を「=ノストラダムス=」や「==概要==」といった形で表記し、後にそれぞれの本文を記載しています。
以下に一例を示します。

=ノストラダムス=
ミシェル・ノストラダムス（ＭｉｃｈｅｌＮｏｓｔｒａｄａｍｕｓ、１５０３年１２月１４日 ‐ １５６６年７月２日）は、ルネサンス期フランスの医師、占星術師、詩人。また料理研究の著作も著している。日本では「ノストラダムスの大予言」の名で知られる詩集を著した。彼の予言は、現在に至るまで多くの信奉者を生み出し、様々な論争を引き起こしてきた。本名はミシェル・ド・ノートルダム（ＭｉｃｈｅｌｄｅＮｏｓｔｒｅｄａｍｅ）で、これはフランス語による。よく知られるノストラダムスの名は、姓をラテン語風に綴ったものである。しばしば、「ミシェル・ド・ノストラダムス」と表記されることもあるが、後述するように適切なものではない。

データのクレンジングとして、以下の処理を行いました。
まず、データ内の文字がJISX 0208の規格に沿った形となるよう、全ての半角文字を全角に変換しました。
また、アラビア文字などの適当な置き換えが困難な文字は、「*1*」のようにシンボル化することで対応しています。シンボル化前の文字は全て「Exception_F(G).html」のファイルに記載しました。
さらに、元のページにて別枠として埋め込まれていた文章は<block><block>で囲い、文書内に現れる各種数式は<math-element>としてシンボル化しています。

以上の処理を行ったテキストデータをデータセットとしてまとめ、現在公開しています。
さらに、件のデータを8：1：1の割合で分割、それぞれを「訓練データ、開発データ、テストデータ」として同様に公開しています。

統計情報

記事の種類	項目数	平均的な文長	文数	単語数	語彙サイズ
秀逸な記事	85	61	35194	1318239	42113
良質な記事	1423	59	336707	12087117	181939
合計	1508	120	371901	13405356	224052

記事の種類	データの種類	項目数	平均的な文長	文数	単語数	語彙サイズ
秀逸な記事	訓練	69	62	27397	1046764	36917
	開発	8	57	4294	147905	10227
	テスト	8	58	3503	124032	7454
良質な記事	訓練	1139	59	267454	9589680	159807
	開発	142	60	33447	1231552	42333
	テスト	142	57	35806	1265839	42255

上掲の表に各データセットの統計情報を示しました。

秀逸な記事、良質な記事に認定された全記事を対象に、「項目数、平均的な文長、文数、単語数、語彙サイズ」をそれぞれ算出、秀逸な記事と良質な記事ごとに記載しています。

ファイル

Featured_List.txt
秀逸な記事のリスト
Featured_Contents.txt
秀逸な記事の全テキストデータ
Exception_F.txt
秀逸な記事のテキストデータ内にて、例外処理を行った文字のリスト
Train_Data_F.txt
秀逸な記事の訓練データ
Valid_Data_F.txt
秀逸な記事の開発データ
Test_Data_F.txt
秀逸な記事のテストデータ
Good_List.txt
良質な記事のリスト
Good_Contents.txt
良質な記事の全テキストデータ
Exception_G.txt
良質な記事のテキストデータ内にて、例外処理を行った文字のリスト
Train_Data_G.txt
良質な記事の訓練データ
Valid_Data_G.txt
良質な記事の開発データ
Test_Data_G.txt
良質な記事のテストデータ

リンク

メンバー

森信介
亀甲博貴
小川晃

参考文献

The wikitext long term dependency language modeling dataset
Stephen Merity
September 26, 2016

Last Change: 2019/07/04 by Akira Ogawa

京都大学学術情報メディアセンター自然言語処理グループ