Specifically, we collected all articles designated as 'Featured Articles'(85 articles) and 'Good Articles'(1423 articles) in wikipedia, arranged them as datasets, and acquired their statistical information.
=ノストラダムス=
ミシェル・ノストラダムス(Michel Nostradamus、1503年12月14日 ‐ 1566年7月2日)は、ルネサンス期フランスの医師、占星術師、詩人。また料理研究の著作も著している。日本では「ノストラダムスの大予言」の名で知られる詩集を著した。彼の予言は、現在に至るまで多くの信奉者を生み出し、様々な論争を引き起こしてきた。
本名はミシェル・ド・ノートルダム (Michel de Nostredame) で、これはフランス語による。よく知られるノストラダムスの名は、姓をラテン語風に綴ったものである。しばしば、「ミシェル・ド・ノストラダムス」と表記されることもあるが、後述するように適切なものではない。
Also,as data cleansing, we performed the following processing.
First, in order to adapt characters in data to JISX 0208, we converted all half-width characters into full-width characters.
The characters difficult to substitute properly (i.e. arabic arphabet) were replaced with specific symbols such as '*1*'.We have shown all characters replaced in 'Exception_F(G).html'.
Second, we surrounded sentences embedded as a separete content in an original page by <block><block>.
Third, we replaced numeral formulae for <math-element>.
We arranged data processed as stated above, and published them.
In addition, We divided the data into 3 datasets: training set, validation set, test set.
The division ratio is 8:1:1.
We also publised these datasets.
|
|
We calculated 'number of items,sentences, and words', 'average sentence length',and 'vocablary size', and have shown them by the category of articles.
- The wikitext long term dependency language modeling dataset
- Stephen Merity
- September 26, 2016