言語の文字列の傾向を数値的に表すモデルです。 一般的には他のモジュールとの親和性を考えて確率で数値化します。 例えば、「わがはいはねこである」を仮名漢字混じり文に変換するとしましょう。 つまり、仮名漢字変換が課題だとします。 確率的言語モデルによれば
P(我輩は猫である) > P(我が背は猫である)なので、「我輩は猫である」が出力としてより適切であると判断できます。 「我が背は猫である」(つまり猫背?)という日本語は、1番目の変換候補にはなりません。 このように、様々な応用がある非常に重要な研究課題です。
確率的言語モデルの代表は単語n-gramモデルです。 詳細はいずれここに書きますが、 新規配属学生に向けの講義と実装演習の資料があります。 研究テーマとしては、その改良(クラスn-gramモデルなど)があります。 現在は、世界的に未開拓の構造的言語モデルに取り組んでいます。
単語n-gramモデルの学習には適切に単語に分割されたコーパスが必要です。 これを不要とする確率的単語分割の概念を世界で最初に提案しました。 十分な一般性があるので様々な発展や応用研究があり、学会などで多数発表しています。
次のような応用をすでに実現しています。
生成系の応用では、言語モデルを共通にしておくと便利です。 そうしておくと、ある応用での単語登録などの効果が別の応用に波及します。 例えば、仮名漢字変換で新語を登録すると、これが文字誤り訂正に自動的に反映されます。
研究室に新に配属される学生に向けて講義と実装演習をしています。
目指せ5[bit/文字] (言語モデルをつくろう)1回あたり30分の講義と30分の課題発表という内容です。 全6回の学習で、言語モデルがわかり、自動単語分割や仮名漢字変換ができるようになります。 仮名漢字変換と音声認識を応用の中心した講義資料もあります。