具体的には、Wikipediaにて、秀逸な記事(85記事)、および良質な記事(1423記事)と認定されている全ての記事をデータセットとして収集、その統計情報を取得しました。
=ノストラダムス=
ミシェル・ノストラダムス(Michel Nostradamus、1503年12月14日 ‐ 1566年7月2日)は、ルネサンス期フランスの医師、占星術師、詩人。また料理研究の著作も著している。日本では「ノストラダムスの大予言」の名で知られる詩集を著した。彼の予言は、現在に至るまで多くの信奉者を生み出し、様々な論争を引き起こしてきた。
本名はミシェル・ド・ノートルダム (Michel de Nostredame) で、これはフランス語による。よく知られるノストラダムスの名は、姓をラテン語風に綴ったものである。しばしば、「ミシェル・ド・ノストラダムス」と表記されることもあるが、後述するように適切なものではない。
データのクレンジングとして、以下の処理を行いました。
まず、データ内の文字がJISX 0208の規格に沿った形となるよう、全ての半角文字を全角に変換しました。
また、アラビア文字などの適当な置き換えが困難な文字は、「*1*」のようにシンボル化することで対応しています。シンボル化前の文字は全て「Exception_F(G).html」のファイルに記載しました。
さらに、元のページにて別枠として埋め込まれていた文章は<block><block>で囲い、文書内に現れる各種数式は<math-element>としてシンボル化しています。
以上の処理を行ったテキストデータをデータセットとしてまとめ、現在公開しています。
さらに、件のデータを8:1:1の割合で分割、それぞれを「訓練データ、開発データ、テストデータ」として同様に公開しています。
|
|
秀逸な記事、良質な記事に認定された全記事を対象に、「項目数、平均的な文長、文数、単語数、語彙サイズ」をそれぞれ算出、秀逸な記事と良質な記事ごとに記載しています。
- The wikitext long term dependency language modeling dataset
- Stephen Merity
- September 26, 2016