京都大学 学術情報メディアセンター 自然言語処理グループ

WHLL English

概要

テキスト中の地名表現で示された空間情報を認識することは,文書理解の重要な課題の一つです. このうちジオパージング (Geoparsing) と呼ばれる課題は,テキスト中の地名表現が指し示す緯度 (latitude) と経度 (longitude) を推測する課題です. 機械学習手法によってこの課題を解くことを考えたとき,緯度経度のアノテーションがされた大規模なコーパスが必要ですが,そのようなコーパスを人手で構築するのは非常に大変です.

そこで,我々はWikipediaのダンプデータから自動的に緯度経度情報が付与されたコーパスを構築する手法であるWHLL (Wikipedia Hyperlink-based Location Linking (WHLL) を提案しました. Wikipedia記事のうちいくつかは,記事執筆者によって緯度経度が付与されています. 我々はこの記事に付与されている緯度経度とそのような記事へのハイパーリンク情報に着目し,これらを活用してコーパスの自動構築を行いました.

コーパスの詳細

WHLLコーパスはCirrusSearchダンプとHTMLダンプを元に構築されます. 以下では,構築されたコーパスをWHLL-{Wikipediaの言語コード}-CS{CirrusSearchのタイムスタンプ}.HTML{HTMLダンプのタイムスタンプ}と表記します.

WHLLコーパスは2種類のファイルで構成されています.

統計情報

構築されたWHLLコーパスの諸元表.
コーパス名 記事数 文数 単語数 文字数 地名表現数 地名表現の異なり数 曖昧地名表現の割合 曖昧かつ潜性な地名表現の割合
WHLL-en-CS20230710.HTML20230701 1,315,117 23,187,909 550,593,285 2,883,484,675 14,726,908 1,571,291 45.6% 9.9%
WHLL-ja-CS20240304.HTML20240301 200,906 3,678,314 123,648,103 214,227,083 4,151,205 245,482 29.5% 8.4%

ファイル

ソースコード

PythonスクリプトをMIT Licenseのもと公開しています.[Source Code] もしくは [GitHub]

構築されたコーパス

Wikipediaのテキストはクリエイティブ・コモンズ 表示-継承 4.0 国際 (CC BY-SA) およびGNU Free Documentation License (GFDL) のもとにライセンスされています

メンバー

参考文献

Automatic Construction of a Large-Scale Corpus for Geoparsing Using Wikipedia Hyperlinks
Keyaki Ohno, Hirotaka Kameko, Keisuke Shirai, Taichi Nishimura, Shinsuke Mori
LREC-COLING, 2024 (TBA)

Last Change: 2024/03/21 by Hirotaka Kameko
京都大学 学術情報メディアセンター 自然言語処理グループ