ながさき読み付与コーパス

長崎に関係のある以下の文章に対して人手で読みを付与したコーパスを公開しています。 約2,000文から構成されています。 例文は以下です。
出島/でじま 和蘭/おらんだ 商館/しょうかん 跡/あと と/と 長崎/ながさき 新地/しんち 中華/ちゅうか 街/がい を/を 横目/よこめ に/に ...
学習とテストに分割したデータは以下です。 KyTeaによる読み推定の精度は以下の通りです。
  • 再現率 = 18268/18425 = 99.15%
  • 適合率 = 18268/18471 = 98.90%
  • F値 = 99.02
  • 文正解率 = 371/458 = 81.0%

出典と諸元

  1. 日本の都市百選 第1集 (書籍)
    • 長崎県 (前半): 112文, 4,485単語
  2. ナガジン (Web page)
    • 発見!長崎の歩き方 (01-07): 1,375文, 34,476単語 (引用箇所等を削除)
    • 歩くコツ: 660文, 20,985単語

参考にしたサイト (2025/04/17アクセス)

謝辞

SB Intuitions 株式会社との共同研究です。 また、日本の都市百選の著者の牛垣雄矢東京学芸大学准教授(2025年4月現在)、およびナガジンの運営者の長崎市広報広聴課協力を得ています。 以上の関係者に感謝申し上げます。

Selected Publications

読み推定のための教師なし単語分割
内海 慶, 森 信介
言語処理学会年次大会, 2025.
Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis
Graham Neubig, Yosuke Nakata, Shinsuke Mori
ACL-HLT, 2011.
A Pointwise Approach to Pronunciation Estimation for a TTS Front-end
Shinsuke Mori, Graham Neubig
InterSpeech, 08/28, 2011.
Phoneme-to-Text Transcription System with an Infinite Vocabulary
Shinsuke Mori, Daisuke Takuma, Gakuto Kurata
Coling-ACL, pp.729-736, 2006.