研究課題/領域番号 |
23700157
|
研究機関 | 東北大学 |
研究代表者 |
渡邉 陽太郎 東北大学, 情報科学研究科, 助教 (70583326)
|
研究期間 (年度) |
2011-04-28 – 2013-03-31
|
キーワード | 含意関係認識 / 自然論理 / アライメント |
研究概要 |
本研究の目的は,自然言語上での論理推論を実現する理論であるNatural Logic (NL)に基づく,精緻かつ頑健な文間関係認識技術を実現することにある.その実現のために,本年度では,まず二文間での対応箇所(単語,係り受けなど)の意味関係(同義,含意,排他など)を結合する規則が,様々な言語現象を含む事例で正しく説明を与えられるかどうかを詳細に分析した.次に,上記の分析に基づき,精緻な文間関係認識を実現するモデルを設計・実装した.NLに基づく文間関係認識手法では,文間の要素のアライメントをおこない,個々のアライメントに対して,NLにて定義される意味関係を付与する.既存研究では,アライメントの機械学習モデルを構築するために,アライメント情報を付与したデータを作成しているが,アノテーションの時間的コストが大きいことや,ラベル付けの作業のためにアノテータの訓練を要するなどの問題がある.そこで,文間の意味関係のみからアライメントの学習と文間の意味関係の認識を同時に実現する識別モデルを開発した.アライメント情報を陽に与えずに,様々なアライメントの可能性を考慮したがら意味関係を認識する既存手法は,認識可能な関係の数に制限があることや,構成的に意味関係を導く枠組みになっていないため精緻な関係の分類が困難であるという問題があった.開発したモデルは,これらの問題を解決するものである.モデルの推論・学習には,動的計画法により効率的な推論・学習を実現する信念伝播法を採用し,意味関係のみからアライメントを含めたモデルの学習を,周辺尤度最大化により実現した.評価実験の結果,特定の言語現象を含む事例に対しては正しく解析がおこなえることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
23年度の計画であった,(1) 意味的関係の結合規則の拡充,(2) 確率論理に基づく文間関係認識モデルの設計・開発,(3) システム性能の実証実験を実行する,はおおむね達成することができた.(1) については,従来のNLの規則では扱えない問題を明らかにし,それを解決する規則の導入を検討することが目的であったが,排他的関係を持つ集合と一般化量化子の組み合わせで説明できない事例などにおいて,規則の拡張によって対応が可能であることを確認した.(2) については,確率論理の枠組みの一つであるMarkov Logic Networksと同等の性能を持つことが知られている条件付確率場を用いて,文間関係認識のモデルを設計・開発した.文間関係を導くために必要となるモデルの推論アルゴリズムは,動的計画法により効率的な推論・学習を実現する信念伝播法(Belief Propagation)アルゴリズムを採用した.また,関係認識モデルの学習においては,二文の要素間の対応付けをおこなうアライメントを陽に与えずに隠れ変数として扱うことによって,アノテーションコストの高いアライメントを付与せずにモデルの学習を実現させることを試みた.この実現のために,学習手法として周辺尤度最大化による方法を実装した.(3) については,当初,日本語の言明間意味的関係コーパスと,英語のRTEデータで実験をおこなう予定であったが,NLの有効性を検証する目的としては適切でないと判断したため,計画を変更した.まず,NLで説明可能な言語現象を主に取り入れた,150事例ほどのデータセットを作成し,検証をおこなった.そして,既存の日本語RTEデータの一つである,京都大学で作成されたTextual Entailment評価データを用いて検証をおこなった.その結果,現在のモデルが特定の現象に対して適切な推論がおこなえることを確認した.
|
今後の研究の推進方策 |
開発した条件付確率場に基づくモデルは,挿入,削除,置換の3種類の操作でアライメント表現しているが,アライメントの表現として正しくない操作の組み合わせを出力してしまう可能性があった.そこで,まずアライメントの表現として正しい操作の組み合わせのみを出力できるようにモデルを改善する.具体的には,MacCartney 2008にて用いられているGreeyなアライメントの探索手法を採用し,これにNatural Logicによる意味関係の推論を統合した手法を実装し,再度実証実験を実施する.実証実験の方法としては,含意関係認識に関わる様々な言語現象を類型化し,個々の分類に属する事例集合ごとに,適切なアライメントと文間の意味関係が正しく導けるかどうかに基づいて評価する方法を採用する.その後,手がかりやモデルパラメータの設定方法などを改善することでシステムの高精度化をはかり,アライメントアルゴリズムの非効率部分を排除することによって,モデルの推論・学習を効率化する.次に,開発したシステムが多様なトピックに対して頑健に文間関係を認識できるかを実証するため,大規模文書集合を用いた実証実験をおこなう.具体的には,Web上の文書集合から,各トピックと関連性のある文書を検索し,文書内の文との意味的関連性を頑健に認識できるかどうかを調査する.これは,高度な情報検索,質問応答などの言語処理への応用を視野に入れたもので,幅広い応用においてシステムが有効であるかを実証するためには不可欠である.ここでの結果のエラーを分析し,認識モデルを改善することでシステムを実用レベルへと引き上げる.最終的に,文間関係認識システムを様々なアプリケーションにて容易に利用できるよう,システムを公開する.
|
次年度の研究費の使用計画 |
本年度は,研究計画の変更により,予定していた国際会議発表および論文誌への投稿・掲載まで至らなかったため,研究費の使用は当初の計画よりも少ない状況である.次年度では大規模な実証実験を実施するため,100万円相当の計算サーバーを1台購入する.また,国内発表を2件程度,研究打ち合わせを10回程度,国際会議での発表を2件程度,論文誌掲載を2件程度を予定している.
|