テキスト中の地名表現で示された空間情報を認識することは,文書理解の重要な課題の一つです. このうちジオパージング (Geoparsing) と呼ばれる課題は,テキスト中の地名表現が指し示す緯度 (latitude) と経度 (longitude) を推測する課題です. 機械学習手法によってこの課題を解くことを考えたとき,緯度経度のアノテーションがされた大規模なコーパスが必要ですが,そのようなコーパスを人手で構築するのは非常に大変です.
そこで,我々はWikipediaのダンプデータから自動的に緯度経度情報が付与されたコーパスを構築する手法であるWHLL (Wikipedia Hyperlink-based Location Linking (WHLL) を提案しました. Wikipedia記事のうちいくつかは,記事執筆者によって緯度経度が付与されています. 我々はこの記事に付与されている緯度経度とそのような記事へのハイパーリンク情報に着目し,これらを活用してコーパスの自動構築を行いました.
WHLLコーパスはCirrusSearchダンプとHTMLダンプを元に構築されます. 以下では,構築されたコーパスをWHLL-{Wikipediaの言語コード}-CS{CirrusSearchのタイムスタンプ}.HTML{HTMLダンプのタイムスタンプ}と表記します.
WHLLコーパスは2種類のファイルで構成されています.
コーパス名 | 記事数 | 文数 | 単語数 | 文字数 | 地名表現数 | 地名表現の異なり数 | 曖昧地名表現の割合 | 曖昧かつ潜性な地名表現の割合 |
---|---|---|---|---|---|---|---|---|
WHLL-en-CS20230710.HTML20230701 | 1,315,117 | 23,187,909 | 550,593,285 | 2,883,484,675 | 14,726,908 | 1,571,291 | 45.6% | 9.9% |
WHLL-ja-CS20240304.HTML20240301 | 200,906 | 3,678,314 | 123,648,103 | 214,227,083 | 4,151,205 | 245,482 | 29.5% | 8.4% |
Wikipediaのテキストはクリエイティブ・コモンズ 表示-継承 4.0 国際 (CC BY-SA) およびGNU Free Documentation License (GFDL) のもとにライセンスされています.
- Automatic Construction of a Large-Scale Corpus for Geoparsing Using Wikipedia Hyperlinks
- Keyaki Ohno, Hirotaka Kameko, Keisuke Shirai, Taichi Nishimura, Shinsuke Mori
- LREC-COLING, 2024 (TBA)