Zzz Eee Lll Ccc Hhh

言語処理学会年次大会

2012

伏字を含むテキストの分ち書き処理
笠原要, 永田昌明

伏字の出現の分析
KyTea と MeCab の解析精度の比較
文字境界精度は、KyTea = 0.955、MeCab = 0.937
伏せ字を含む形態素では、KyTea = 0.679、MeCab = 0.278
MeCab が未知語に対応していないのが主な原因

日本語単語分割が統計的機械翻訳に与える影響の評価
星野翔, 宮尾祐介

統計的機械翻訳におけるアラインメントをとる単位の比較

KyTea (BCCWJ, UniDic)
MeCab (IPADIC, 橋本文法)
JUMAN (益岡・田窪文法)
文字

文字レベルからのスタートはE1-8
解析器の精度の影響と単語分割基準の影響がある?
解析器と単語分割基準は分けて考えるべき

特許文書のための形態素解析辞書の構築
橋本泰一, 藤井敦

2文字と3文字の漢字列を抽出
人手でチェックして公開の予定らしい
部分的アノテーションをしてKyTeaの学習に加えられるといいのだが

料理レシピテキストの構造解析とその応用
苅米志帆乃, 藤井敦

[浜田ほか, 2002]の改良
辞書追加とルール追加
指摘されている未解決問題

共参照(「玉葱1/3を…、残りの玉葱を…」の玉葱は別物)
連体修飾(現在のパターンにマッチしないケース)
属性の曖昧性(「スポンジ」が食材にも道具にもなる)

応用例: 調理による栄養の変化予測
言語処理としの一般性は低い

語彙概念構造を用いた日本語述語項構造コーパスの設計
松林優一郎, 宮尾祐介, 相澤彰子

語彙概念構造(Jackendoff LCS + "combination")の付与
京大コーパスに頻出する60の述語(述語と事態性名詞)に109のLCS構造を付与
京大コーパスは偏っているので、BCCWJに付与したい

2ツイートを用いた対話モデルの構築
東中竜一郎, 川前徳章, 貞光九月, 南泰浩, 目黒豊美, 堂坂浩二, 稲垣博人

呼応している2つのツイートからの対話の無限状態HMMのパラメータ推定
ツイートにおける「会話」は全体の2.62%
テストデータの尤度とKendallのτで評価
グラフの途中でτが急上昇するところで3ツイート以上を扱えるようになったと解釈
どうすればそれを検証できるか

複合動詞と構成要素動詞の格要素の対応関係分析
山口昌也

語彙的複合動詞のそれぞれの動詞が格要素と関係するか否かの調査
WebデータをJUMAN/KNPで解析(精度不明)
各段階での誤りがどの程度結果に影響しているか

全
岡野

Problems for successful bunsetsu based parsing and some solutions
Alastair Butler, Zhen Zhou, Kei Yoshimoto

文節係り受けから意味表現への変換の際の問題

文節分割: 意味表現の単位と文節が合わない
修飾節と埋め込み文の区別
複文
文末の助詞(例: か)
否定

問題解決には格フレームが重要
単語係り受けがこれらすべてに答えているか要チェック
単語係り受け解析器EDAを使って下さい!

シンボル細分化を適用した階層Pitman-Yor過程に基づく木置換文法獲得法と構文解析への応用
進藤裕之, 宮尾祐介, 藤野昭典, 永田昌明

TSGによるPennTree Bankの構文解析
Pitman-Yor過程によるシンボル(非終端記号?)の細分化
最高精度を達成
1文10秒程度の解析速度らしい
To read: [4] Sentence Compression as Tree Transduction

Web上のひらがな交じり文に頑健な形態素解析
工藤拓, 市川宙, David Talbot, 賀沢秀人

表記 v が平仮名 w で記述される確率を P(w|v) とする
Noisy Channel Model により平仮名交じり文を定式化
差分の目視による精度向上の確認
翻訳の精度がどうなるかを評価
平仮名コーパスは作成困難としているが、BCCWJ なら容易に可能

半教師あり学習に基づく大規模語彙に対応した日本語単語分割
萩原正人, 関根聡

0, 0.5, 1 の離散確率的単語分割を提案
生コーパスの確率的単語分割の結果から未知語候補を収集
期待頻度別の辞書を作成
単語分割精度の向上を報告
SVM ではなく Logistic 回帰では、3値にならずだめ?

拡張ラグランジュ緩和を用いた同時自然言語解析法
鈴木潤, Kevin Duh, 永田昌明

拡張ラグランジュ緩和により日本語の文分割と単語分割と品詞付与と文節分割を同時実行
京大コーパス, blogデータ, webデータ
絶対的な精度が低い(コーパスが悪い?)
それぞれの問題に対して異なる学習コーパスでも使えるか? (Yesらしい)

隠れ変数を持つ識別モデルによる文間意味関係の学習
渡邉陽太郎, 水野淳太, 岡崎直観, 乾健太郎

2文間の関係を5つから選択(Textual Entailment 評価データ)
正解率40.32はすべてを前向き含意とする44.32より低い
なかなか難しいらしい

2011

意味的類似度を用いたWeb文書からの集合拡張
萩原正人, 関根聡

ある集合に属する表現(シード)から類似する表現をWeb文書から取得
DCG(Descounted cumulative gain)で評価
g-Espresso,DS,SEAL,Google Sets よりも平均的に良い
Cf. Espressoの文献
式にはなっているが多少ヒューリスティック

述語項構造の共起情報と節間関係の分布を用いた事態間関係知識の獲得
大友謙一, 柴田知秀, 黒橋禎夫

事態間関係知識(因果?,同義?)
述語項構造の分布類似度
項の名詞を風間クラスで汎化(帰属確率最大のクラスに固定)
動詞の格フレームから「出来事」か「行為」かに分類

「人」がガ格なら行為にしているが「父が死ぬ」は出来事?

様々な閾値がある

全部分文字列のクラスタリングとその応用
岡野原大輔

特徴ベクトルは左文脈、右文脈、文共起、文書共起
クラスタリングの特徴ベクトルの次元を圧縮(潜在表現)
対象は、頻度10以上、長さ3以上の部分文字列
目視による評価

WWWテキストのみを用いたオープンドメイン質問応答用音声認識言語モデル
Varga Istvan, 大竹清敬, 鳥澤健太郎, De Saeger Stijn, 松田繁樹, 林輝昭

Wh質問の応答システムのための単語3-gramモデル作成

WWW(Tsubaki)に対するKNPの結果
ChaSenとChaWanで言語モデルを作成(分野適応なし)
活用語はすべて展開(→語彙は120万語)
片仮名以外の未知語、指示詞と一部連体詞、代名詞があれば破棄 (JUMAN?/ChaSen?)
ある種の表現パターンからWh疑問文を生成(名詞を疑問詞で置換)

認識精度は少し良くなる
モデルが小さくなり、音声認識の速度が1.4倍ほどになる
結局WWWテキストを想定される発話に向けてフィルターしている感じ

項間関係も考慮した述語項構造解析
平博順, 藤田早苗, 永田昌明

係り受け関係にある項と述語が対象(ゼロ代名詞は対象外)
線形SVMに組み合わせ特徴量を追加
BrillのTBLの枠組みを利用
NAIST Text Corpus 1.4β
ChaSen+CaboChaの出力が前提

混成型別サンプリングを用いた名詞句分割
村脇有吾, 黒橋禎夫

Wikipediaの日本語記事の見出しの文字列を単語に分割(品詞推定はなし)
人手による分割(κ=0.95, ちょっと低いか)との比較
形態素解析の精度向上の報告は無し
JUMANはもともと未知語に弱い
BCCWJ+UniDicから学習したKyTeaと比べてどうか

機械翻訳手法に基づいた日本語の読み推定
羽鳥潤, 鈴木久美

Wikipediaから「漢字仮名列(平仮名列)」46万対を抽出(約10%のノイズ)し学習に利用
辞書: UniDic(63万), 岩波(33万), MSR辞書(23万)
KyTea-0.1.3はダウンロードモデル
テストは MSR IME コーパス (KyTeaの学習のBCCWJと読みの定義が違うのでは)
表1のKyTeaは、提案手法と同じ言語資源ではない(脚注7)
評価基準は文正解率??
KyTeaは新聞記事に強く、提案手法(辞書語)はWeb Queryに強い(表2)
教師データをパターンによって収集しているだけで教師無しではない
Wiki-Trainは、KyTeaで自動分割して学習に利用

薬品の副作用調査を目的とした統合的言語処理システム
大熊智子, 三浦康秀, 外池昌嗣, 増市博, 篠原（山田）恵美子, 荒牧英治, 大江和彦

To Read
b

共起・連接頻度グラフに基づいた略語展開語候補生成
篠原（山田）恵美子, 三浦康秀, 外池正嗣, 大熊智子, 増市博, 荒牧英治, 大江和彦

MeCab+UniDicで解析
略語関連の参考文献
a

POMDPを用いた聞き役対話システムの対話制御
目黒豊美, 東中竜一郎, 南泰浩, 堂坂浩二

ユーザに「聞いてもらえている」と感じてもらうことが目的
聞き役対話コーパス(対話行為タグ, 対話満足度)からのPOMDPの学習
テキストによる対話
7段階の満足度で主観評価(3.76)
人同士(5.22)には及ばないが、他の対話システムよりよい

翻字と言い換えを利用した片仮名複合語の分割
鍜治伸裕, 喜連川優

片仮名列の単語分割 ⊆ 単語分割
名詞列と仮定
例) ジャンクフード => junk/ジャンク food/フード
Proposed 87.5 v.s. JUMAN 67.9, MeCab 69,9 だがこれらは未知語に弱い
KyTeaだとどうかな
見方をかえれば英単語辞書を参照する未知語モデル

Microsoft IME の誤変換レポートに基づく品質改善
大附克年, 鈴木久美

aa
bb

2010

大規模ラベルなしデータを利用した係り受け解析の性能検証
鈴木潤, 磯崎秀樹

ラベルなしデータの利用による係り受け解析の精度向上
係り受け解析における3つの手法(詳細はそれぞれの文献参照)の融合
PennTreebankで実験

係り受け周辺確率に基づく文節間距離
海野裕也, 坪井祐太

検索のための文節間距離の計算
係り受けを決定的に行わなずに期待値を計算
従来のn-bestと比較してどうか
単語分割や文節は決定的

電子カルテからの副作用関係の自動抽出
三浦康秀, 荒牧英治, 大熊智子, 外池昌嗣, 杉原大悟, 増市博, 大江和彦

前処理はJUMAN/KNP (精度は不十分なようだ)
ある表現を含むペアについて副作用関係があるかをSVMで判別

機器の不具合を記述した日本語と英語のコーパスにおけるオノマトペ
那須川哲哉, 海野裕也, 村上明子

テキストマイニングのためのオノマトペの分析
医療でも症状を訴えるときにオノマトペをよく使うのかな

カタカナ語から英語への翻字翻訳
鈴木久美, Colin Cherry

翻訳に組み込むことを目的としている
対数線形補間モデル(P.203右上)を利用

P_E(s|t) = f(s,t)/f(t)??, where s = source, t = target
Wikipediaの見出し語38,000件のルールベース(??)による部分文字列対応結果を用いて推定
P_T(t): 生成された文字列のその言語らしさ
P_L(t): 生成された文字列が語である確率

P_T(t)とP_L(t)の差異は[13]を読まないとわからない??
精度は43%程度
辞書でカバーされるものは対象外??

２ちゃんねる解析用の形態素解析器の作成
早藤健, 建石由佳

MeCabの辞書、品詞体系、接続コストを整備
複数行に渡るアスキーアートなどは対象外
統計的手法でアクティブラーニングするのが今風(比較なし)

生命科学知識の連想検索における提示語の最適化
金子周司, 藤田信之, 鵜川義弘

実務者からの発表は貴重
To write more comments.

臨床医療テキストの構造化システム
荒牧英治, 三浦康秀, 外池昌嗣, 大熊智子, 杉原大悟, 増市博, 大江和彦

医療テキストに自然言語処理を適用する試み
以下の4つの処理がある

固有表現認識
表記ゆれ吸収
事実性判定
関係抽出

個々の処理は参考文献を参照すべし
形態素解析などの精度は低いので直接的には利用せず

大規模候補リストを利用したトランスリタレーション
佐藤理史

同期文法(RG)による定式化
リスト中からの選択課題とする(推測による生成はしない)
コストベース
大量のパラレルデータを対象にしたEMと類似
文脈なしには曖昧な例(ex. Graham/{グラム,グレアム,...})は？

点推定と能動学習を用いた自動単語分割器の分野適応
Graham Neubig, 中田陽介, 森信介

発表お疲れさまです
形態素解析の分野適応の省力化
系列推定との比較が必要(点推定の方が部分アノテーションできる分だけ当然優位!?)

拡張固有表現タグ付きコーパスの構築 - 白書，書籍，Yahoo!知恵袋コアデータ -
橋本泰一, 中村俊一

(最大)4階層200種類の固有表現タグをBCCWJに付与
CRFによる固有表現抽出実験(IOB2)
人手による形態素結果かMeCab
精度(適合率)が高く再現率が低い
固有表現に汎用性はあるか
形態素解析の分野適応の必要性はいかほどか

2009

文字bigramモデルを用いた日本語テキストの難易度推定
小島健輔, 佐藤理史, 藤田篤

難易度別文字2-gramモデル M_i の尤度により判別
英語を除く教科書を利用
言語モデルベースの文書分類と同じ方法!?
言語モデルの作成に教科書が使えるかも

構文・照応・評判情報つきブログコーパスの構築
橋本力, 河原大輔, 黒橋禎夫, 新里圭司, 永田昌明

いろいろアノテーション
入力誤りの情報は自動誤り訂正に使えそう
深くアノテーションしていく戦略はどの程度まで有効か

2008

Shift-Reduce操作に基づく未知語を考慮した形態素解析
岡野原大輔, 辻井潤一

Shift操作では次の文字を繋げる
Reduce操作では単語境界を置き品詞を付与する
文字2-gramに単語境界があるかないかの確率で足切りしてスピードアップ
高速化が目的か?
継続中の研究のようで続報待ち