-
伏字を含むテキストの分ち書き処理
- 笠原 要, 永田 昌明
- 伏字の出現の分析
- KyTea と MeCab の解析精度の比較
- 文字境界精度は、KyTea = 0.955、MeCab = 0.937
- 伏せ字を含む形態素では、KyTea = 0.679、MeCab = 0.278
- MeCab が未知語に対応していないのが主な原因
-
日本語単語分割が統計的機械翻訳に与える影響の評価
- 星野 翔, 宮尾 祐介
- 統計的機械翻訳におけるアラインメントをとる単位の比較
- KyTea (BCCWJ, UniDic)
- MeCab (IPADIC, 橋本文法)
- JUMAN (益岡・田窪文法)
- 文字
- 文字レベルからのスタートはE1-8
- 解析器の精度の影響と単語分割基準の影響がある?
- 解析器と単語分割基準は分けて考えるべき
-
特許文書のための形態素解析辞書の構築
- 橋本 泰一, 藤井 敦
- 2文字と3文字の漢字列を抽出
- 人手でチェックして公開の予定らしい
- 部分的アノテーションをしてKyTeaの学習に加えられるといいのだが
-
料理レシピテキストの構造解析とその応用
- 苅米 志帆乃, 藤井 敦
- [浜田ほか, 2002]の改良
- 辞書追加とルール追加
- 指摘されている未解決問題
- 共参照(「玉葱1/3を…、残りの玉葱を…」の玉葱は別物)
- 連体修飾(現在のパターンにマッチしないケース)
- 属性の曖昧性(「スポンジ」が食材にも道具にもなる)
- 応用例: 調理による栄養の変化予測
- 言語処理としの一般性は低い
-
語彙概念構造を用いた日本語述語項構造コーパスの設計
- 松林 優一郎, 宮尾 祐介, 相澤 彰子
- 語彙概念構造(Jackendoff LCS + "combination")の付与
- 京大コーパスに頻出する60の述語(述語と事態性名詞)に109のLCS構造を付与
- 京大コーパスは偏っているので、BCCWJに付与したい
-
2ツイートを用いた対話モデルの構築
- 東中 竜一郎, 川前 徳章, 貞光 九月, 南 泰浩, 目黒 豊美, 堂坂 浩二, 稲垣 博人
- 呼応している2つのツイートからの対話の無限状態HMMのパラメータ推定
- ツイートにおける「会話」は全体の2.62%
- テストデータの尤度とKendallのτで評価
- グラフの途中でτが急上昇するところで3ツイート以上を扱えるようになったと解釈
- どうすればそれを検証できるか
-
複合動詞と構成要素動詞の格要素の対応関係分析
- 山口 昌也
- 語彙的複合動詞のそれぞれの動詞が格要素と関係するか否かの調査
- WebデータをJUMAN/KNPで解析(精度不明)
- 各段階での誤りがどの程度結果に影響しているか
-
全
- 岡野
-
Problems for successful bunsetsu based parsing and some solutions
- Alastair Butler, Zhen Zhou, Kei Yoshimoto
- 文節係り受けから意味表現への変換の際の問題
- 文節分割: 意味表現の単位と文節が合わない
- 修飾節と埋め込み文の区別
- 複文
- 文末の助詞(例: か)
- 否定
- 問題解決には格フレームが重要
- 単語係り受けがこれらすべてに答えているか要チェック
- 単語係り受け解析器EDAを使って下さい!
-
シンボル細分化を適用した階層Pitman-Yor過程に基づく木置換文法獲得法と構文解析への応用
- 進藤 裕之, 宮尾 祐介, 藤野 昭典, 永田 昌明
- TSGによるPennTree Bankの構文解析
- Pitman-Yor過程によるシンボル(非終端記号?)の細分化
- 最高精度を達成
- 1文10秒程度の解析速度らしい
- To read: [4] Sentence Compression as Tree Transduction
-
Web上のひらがな交じり文に頑健な形態素解析
- 工藤 拓, 市川 宙, David Talbot, 賀沢 秀人
- 表記 v が平仮名 w で記述される確率を P(w|v) とする
- Noisy Channel Model により平仮名交じり文を定式化
- 差分の目視による精度向上の確認
- 翻訳の精度がどうなるかを評価
- 平仮名コーパスは作成困難としているが、BCCWJ なら容易に可能
-
半教師あり学習に基づく大規模語彙に対応した日本語単語分割
- 萩原 正人, 関根 聡
- 0, 0.5, 1 の離散確率的単語分割を提案
- 生コーパスの確率的単語分割の結果から未知語候補を収集
- 期待頻度別の辞書を作成
- 単語分割精度の向上を報告
- SVM ではなく Logistic 回帰では、3値にならずだめ?
-
拡張ラグランジュ緩和を用いた同時自然言語解析法
- 鈴木 潤, Kevin Duh, 永田 昌明
- 拡張ラグランジュ緩和により日本語の文分割と単語分割と品詞付与と文節分割を同時実行
- 京大コーパス, blogデータ, webデータ
- 絶対的な精度が低い(コーパスが悪い?)
- それぞれの問題に対して異なる学習コーパスでも使えるか? (Yesらしい)
-
隠れ変数を持つ識別モデルによる文間意味関係の学習
- 渡邉 陽太郎, 水野 淳太, 岡崎 直観, 乾 健太郎
- 2文間の関係を5つから選択(Textual Entailment 評価データ)
- 正解率40.32はすべてを前向き含意とする44.32より低い
- なかなか難しいらしい
-
意味的類似度を用いたWeb文書からの集合拡張
- 萩原 正人, 関根 聡
- ある集合に属する表現(シード)から類似する表現をWeb文書から取得
- DCG(Descounted cumulative gain)で評価
- g-Espresso,DS,SEAL,Google Sets よりも平均的に良い
- Cf. Espressoの文献
- 式にはなっているが多少ヒューリスティック
-
述語項構造の共起情報と節間関係の分布を用いた事態間関係知識の獲得
- 大友 謙一, 柴田 知秀, 黒橋 禎夫
- 事態間関係知識(因果?,同義?)
- 述語項構造の分布類似度
- 項の名詞を風間クラスで汎化(帰属確率最大のクラスに固定)
- 動詞の格フレームから「出来事」か「行為」かに分類
- 「人」がガ格なら行為にしているが「父が死ぬ」は出来事?
- 様々な閾値がある
-
全部分文字列のクラスタリングとその応用
- 岡野原 大輔
- 特徴ベクトルは左文脈、右文脈、文共起、文書共起
- クラスタリングの特徴ベクトルの次元を圧縮(潜在表現)
- 対象は、頻度10以上、長さ3以上の部分文字列
- 目視による評価
-
WWWテキストのみを用いたオープンドメイン質問応答用音声認識言語モデル
- Varga Istvan, 大竹 清敬, 鳥澤 健太郎, De Saeger Stijn, 松田 繁樹, 林 輝昭
- Wh質問の応答システムのための単語3-gramモデル作成
- WWW(Tsubaki)に対するKNPの結果
- ChaSenとChaWanで言語モデルを作成(分野適応なし)
- 活用語はすべて展開(→語彙は120万語)
- 片仮名以外の未知語、指示詞と一部連体詞、代名詞があれば破棄 (JUMAN?/ChaSen?)
- ある種の表現パターンからWh疑問文を生成(名詞を疑問詞で置換)
- 認識精度は少し良くなる
- モデルが小さくなり、音声認識の速度が1.4倍ほどになる
- 結局WWWテキストを想定される発話に向けてフィルターしている感じ
-
項間関係も考慮した述語項構造解析
- 平 博順, 藤田 早苗, 永田 昌明
- 係り受け関係にある項と述語が対象(ゼロ代名詞は対象外)
- 線形SVMに組み合わせ特徴量を追加
- BrillのTBLの枠組みを利用
- NAIST Text Corpus 1.4β
- ChaSen+CaboChaの出力が前提
-
混成型別サンプリングを用いた名詞句分割
- 村脇 有吾, 黒橋 禎夫
- Wikipediaの日本語記事の見出しの文字列を単語に分割(品詞推定はなし)
- 人手による分割(κ=0.95, ちょっと低いか)との比較
- 形態素解析の精度向上の報告は無し
- JUMANはもともと未知語に弱い
- BCCWJ+UniDicから学習したKyTeaと比べてどうか
-
機械翻訳手法に基づいた日本語の読み推定
- 羽鳥 潤, 鈴木 久美
- Wikipediaから「漢字仮名列(平仮名列)」46万対を抽出(約10%のノイズ)し学習に利用
- 辞書: UniDic(63万), 岩波(33万), MSR辞書(23万)
- KyTea-0.1.3はダウンロードモデル
- テストは MSR IME コーパス (KyTeaの学習のBCCWJと読みの定義が違うのでは)
- 表1のKyTeaは、提案手法と同じ言語資源ではない(脚注7)
- 評価基準は文正解率??
- KyTeaは新聞記事に強く、提案手法(辞書語)はWeb Queryに強い(表2)
- 教師データをパターンによって収集しているだけで教師無しではない
- Wiki-Trainは、KyTeaで自動分割して学習に利用
-
薬品の副作用調査を目的とした統合的言語処理システム
- 大熊 智子, 三浦 康秀, 外池 昌嗣, 増市 博, 篠原(山田) 恵美子, 荒牧 英治,
大江 和彦
-
共起・連接頻度グラフに基づいた略語展開語候補生成
- 篠原(山田) 恵美子, 三浦 康秀, 外池 正嗣, 大熊 智子, 増市 博, 荒牧 英治,
大江 和彦
- MeCab+UniDicで解析
- 略語関連の参考文献
- a
-
POMDPを用いた聞き役対話システムの対話制御
- 目黒 豊美, 東中 竜一郎, 南 泰浩, 堂坂 浩二
- ユーザに「聞いてもらえている」と感じてもらうことが目的
- 聞き役対話コーパス(対話行為タグ, 対話満足度)からのPOMDPの学習
- テキストによる対話
- 7段階の満足度で主観評価(3.76)
- 人同士(5.22)には及ばないが、他の対話システムよりよい
-
翻字と言い換えを利用した片仮名複合語の分割
- 鍜治 伸裕, 喜連川 優
- 片仮名列の単語分割 ⊆ 単語分割
- 名詞列と仮定
- 例) ジャンクフード => junk/ジャンク food/フード
- Proposed 87.5 v.s. JUMAN 67.9, MeCab 69,9 だがこれらは未知語に弱い
- KyTeaだとどうかな
- 見方をかえれば英単語辞書を参照する未知語モデル
-
Microsoft IME の誤変換レポートに基づく品質改善
- 大附 克年, 鈴木 久美
-
大規模ラベルなしデータを利用した係り受け解析の性能検証
- 鈴木 潤, 磯崎 秀樹
- ラベルなしデータの利用による係り受け解析の精度向上
- 係り受け解析における3つの手法(詳細はそれぞれの文献参照)の融合
- PennTreebankで実験
-
係り受け周辺確率に基づく文節間距離
- 海野 裕也, 坪井 祐太
- 検索のための文節間距離の計算
- 係り受けを決定的に行わなずに期待値を計算
- 従来のn-bestと比較してどうか
- 単語分割や文節は決定的
-
電子カルテからの副作用関係の自動抽出
- 三浦 康秀, 荒牧 英治, 大熊 智子, 外池 昌嗣, 杉原 大悟, 増市 博, 大江 和彦
- 前処理はJUMAN/KNP (精度は不十分なようだ)
- ある表現を含むペアについて副作用関係があるかをSVMで判別
-
機器の不具合を記述した日本語と英語のコーパスにおけるオノマトペ
- 那須川 哲哉, 海野 裕也, 村上 明子
- テキストマイニングのためのオノマトペの分析
- 医療でも症状を訴えるときにオノマトペをよく使うのかな
-
カタカナ語から英語への翻字翻訳
- 鈴木 久美, Colin Cherry
- 翻訳に組み込むことを目的としている
- 対数線形補間モデル(P.203右上)を利用
- PE(s|t) = f(s,t)/f(t)??, where s = source, t = target
Wikipediaの見出し語38,000件のルールベース(??)による部分文字列対応結果を用いて推定
- PT(t): 生成された文字列のその言語らしさ
- PL(t): 生成された文字列が語である確率
- PT(t)とPL(t)の差異は[13]を読まないとわからない??
- 精度は43%程度
- 辞書でカバーされるものは対象外??
-
2ちゃんねる解析用の形態素解析器の作成
- 早藤 健, 建石 由佳
- MeCabの辞書、品詞体系、接続コストを整備
- 複数行に渡るアスキーアートなどは対象外
- 統計的手法でアクティブラーニングするのが今風(比較なし)
-
生命科学知識の連想検索における提示語の最適化
- 金子 周司, 藤田 信之, 鵜川 義弘
- 実務者からの発表は貴重
- To write more comments.
-
臨床医療テキストの構造化システム
- 荒牧 英治, 三浦 康秀, 外池 昌嗣, 大熊 智子, 杉原 大悟, 増市 博, 大江 和彦
- 医療テキストに自然言語処理を適用する試み
- 以下の4つの処理がある
- 固有表現認識
- 表記ゆれ吸収
- 事実性判定
- 関係抽出
- 個々の処理は参考文献を参照すべし
- 形態素解析などの精度は低いので直接的には利用せず
-
大規模候補リストを利用したトランスリタレーション
- 佐藤 理史
- 同期文法(RG)による定式化
- リスト中からの選択課題とする(推測による生成はしない)
- コストベース
- 大量のパラレルデータを対象にしたEMと類似
- 文脈なしには曖昧な例(ex. Graham/{グラム,グレアム,...})は?
-
点推定と能動学習を用いた自動単語分割器の分野適応
- Graham Neubig, 中田 陽介, 森 信介
- 発表お疲れさまです
- 形態素解析の分野適応の省力化
- 系列推定との比較が必要(点推定の方が部分アノテーションできる分だけ当然優位!?)
-
拡張固有表現タグ付きコーパスの構築 - 白書,書籍,Yahoo!知恵袋コアデータ -
- 橋本 泰一, 中村 俊一
- (最大)4階層200種類の固有表現タグをBCCWJに付与
- CRFによる固有表現抽出実験(IOB2)
- 人手による形態素結果かMeCab
- 精度(適合率)が高く再現率が低い
- 固有表現に汎用性はあるか
- 形態素解析の分野適応の必要性はいかほどか
2009
-
文字bigramモデルを用いた日本語テキストの難易度推定
- 小島 健輔, 佐藤 理史, 藤田 篤
- 難易度別文字2-gramモデル Mi の尤度により判別
- 英語を除く教科書を利用
- 言語モデルベースの文書分類と同じ方法!?
- 言語モデルの作成に教科書が使えるかも
-
構文・照応・評判情報つきブログコーパスの構築
- 橋本 力, 河原 大輔, 黒橋 禎夫, 新里 圭司, 永田 昌明
- いろいろアノテーション
- 入力誤りの情報は
自動誤り訂正に使えそう
- 深くアノテーションしていく戦略はどの程度まで有効か
-
Shift-Reduce操作に基づく未知語を考慮した形態素解析
- 岡野原 大輔, 辻井 潤一
- Shift操作では次の文字を繋げる
- Reduce操作では単語境界を置き品詞を付与する
- 文字2-gramに単語境界があるかないかの確率で足切りしてスピードアップ
- 高速化が目的か?
- 継続中の研究のようで続報待ち