ながさき読み付与コーパス
長崎に関係のある以下の文章に対して人手で読みを付与したコーパスを公開しています。 約2,000文から構成されています。 例文は以下です。出島/でじま 和蘭/おらんだ 商館/しょうかん 跡/あと と/と 長崎/ながさき 新地/しんち 中華/ちゅうか 街/がい を/を 横目/よこめ に/に ...学習とテストに分割したデータは以下です。
- SNY-test.wordkkci (UTF-8/UNIX, 文字化け注意)
- SNY-train.wordkkci (UTF-8/UNIX, 文字化け注意)
- 再現率 = 18268/18425 = 99.15%
- 適合率 = 18268/18471 = 98.90%
- F値 = 99.02
- 文正解率 = 371/458 = 81.0%
出典と諸元
- 日本の都市百選 第1集 (書籍)
- 長崎県 (前半): 112文, 4,485単語
- ナガジン (Web page)
- 発見!長崎の歩き方 (01-07): 1,375文, 34,476単語 (引用箇所等を削除)
- 歩くコツ: 660文, 20,985単語
参考にしたサイト (2025/04/17アクセス)
謝辞
SB Intuitions 株式会社との共同研究です。 また、日本の都市百選の著者の牛垣雄矢東京学芸大学准教授(2025年4月現在)、およびナガジンの運営者の長崎市広報広聴課協力を得ています。 以上の関係者に感謝申し上げます。Selected Publications
- 読み推定のための教師なし単語分割
- 内海 慶, 森 信介
- 言語処理学会年次大会, 2025.
- Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis
- Graham Neubig, Yosuke Nakata, Shinsuke Mori
- ACL-HLT, 2011.
- A Pointwise Approach to Pronunciation Estimation for a TTS Front-end
- Shinsuke Mori, Graham Neubig
- InterSpeech, 08/28, 2011.
- Phoneme-to-Text Transcription System with an Infinite Vocabulary
- Shinsuke Mori, Daisuke Takuma, Gakuto Kurata
- Coling-ACL, pp.729-736, 2006.