京都大学 学術情報メディアセンター 自然言語処理グループ

Wikitext-JA English

概要

日本語版WikiText言語モデルデータセットを収集、公開しています。 本プロジェクトは「The wikitext long term dependency langage modeling dataset」を参考に実施されました。

具体的には、Wikipediaにて、秀逸な記事(85記事)、および良質な記事(1423記事)と認定されている全ての記事をデータセットとして収集、その統計情報を取得しました。

データセットの詳細

収集した各記事はタイトルおよび項目を「=ノストラダムス=」や「==概要==」といった形で表記し、後にそれぞれの本文を記載しています。
以下に一例を示します。

=ノストラダムス=
ミシェル・ノストラダムス(Michel Nostradamus、1503年12月14日 ‐ 1566年7月2日)は、ルネサンス期フランスの医師、占星術師、詩人。また料理研究の著作も著している。日本では「ノストラダムスの大予言」の名で知られる詩集を著した。彼の予言は、現在に至るまで多くの信奉者を生み出し、様々な論争を引き起こしてきた。 本名はミシェル・ド・ノートルダム (Michel de Nostredame) で、これはフランス語による。よく知られるノストラダムスの名は、姓をラテン語風に綴ったものである。しばしば、「ミシェル・ド・ノストラダムス」と表記されることもあるが、後述するように適切なものではない。

データのクレンジングとして、以下の処理を行いました。
まず、データ内の文字がJISX 0208の規格に沿った形となるよう、全ての半角文字を全角に変換しました。
また、アラビア文字などの適当な置き換えが困難な文字は、「*1*」のようにシンボル化することで対応しています。シンボル化前の文字は全て「Exception_F(G).html」のファイルに記載しました。
さらに、元のページにて別枠として埋め込まれていた文章は<block><block>で囲い、文書内に現れる各種数式は<math-element>としてシンボル化しています。

以上の処理を行ったテキストデータをデータセットとしてまとめ、現在公開しています。
さらに、件のデータを8:1:1の割合で分割、それぞれを「訓練データ、開発データ、テストデータ」として同様に公開しています。

統計情報

記事の種類 項目数 平均的な文長 文数単語数語彙サイズ
秀逸な記事 85 61 35194 1318239 42113
良質な記事 1423 59 336707 12087117 181939
合計 1508 120 371901 13405356 224052
記事の種類 データの種類 項目数 平均的な文長 文数単語数語彙サイズ
秀逸な記事 訓練 69 62 27397 1046764 36917
開発 8 57 4294 147905 10227
テスト 8 58 3503 124032 7454
良質な記事 訓練 1139 59 267454 9589680 159807
開発 142 60 33447 1231552 42333
テスト 142 57 35806 1265839 42255

上掲の表に各データセットの統計情報を示しました。


秀逸な記事、良質な記事に認定された全記事を対象に、「項目数、平均的な文長、文数、単語数、語彙サイズ」をそれぞれ算出、秀逸な記事と良質な記事ごとに記載しています。

ファイル

リンク

メンバー

参考文献

The wikitext long term dependency language modeling dataset
Stephen Merity
September 26, 2016

Last Change: 2019/07/04 by Akira Ogawa
京都大学 学術情報メディアセンター 自然言語処理グループ