2016 Fiscal Year Research-status Report
Project/Area Number |
16K00291
|
Research Institution | Hokkaido University |
Principal Investigator |
原口 誠 北海道大学, 情報科学研究科, 教授 (40128450)
|
Co-Investigator(Kenkyū-buntansha) |
大久保 好章 北海道大学, 情報科学研究科, 助教 (40271639)
吉岡 真治 北海道大学, 情報科学研究科, 准教授 (40290879)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 極大類比 / 構造写像 / 記述的類似性 / グラフ部分マッチング / パス列挙 |
Outline of Annual Research Achievements |
本研究では,イベント集合間で観測できる部分的・局所的マッチングを高速に検出できる手法を確立し,類推理論における構造写像検出問題の現実的な解法を与えることを研究目的としている.3年間の研究期間における初年度として,システムの基本設計および実験用データセットの予備的構築を行った.具体的には下記のとおりである.
通常のグラフマッチング問題とは異なり,本研究で扱うグラフの頂点は,素性構造を持つイベントであり,具体的には物語文や法律判例等を想定している.構造類似性は部分グラフの部分同一性のみならず,素性情報の類似性に基づくパッセージ性,すなわちグラフのパス構造の共有関係も併せて勘案したものを考え,これを構造類似性,もしくは記述的類似性と呼ぶ.記述的類似性において留意すべき点は,最適化問題としては局所最適解が多数存在し,その中のどれを妥当な類似性としてみなすかの指針を事前に与えることが一般には困難な点を指摘しなければならない.そこで,本研究では,要約と整合的な類似性を検出するために,下記の方式を策定した:
(1) 要約と判例を与え,判例において要約に該当する部分を,輸送問題(内積総和最大化)によって見出す手法を設計し,予備的実験を行った.輸送問題の解それ自体は,要約中の(比較的抽象度の高い)一般語と,判例中の文・イベント中のより具体的な対象語の対応関係として算出され,文が長すぎる場合は,係り受け関係に基づいてより細かなイベントから構成されるイベント集合を要約に対応する部分として定める. (2) 判例間の記述的類似性に対して,(1) の類似度が高く,かつ,イベントグラフにおけるパス構造をできるだけ保存するグラフ頂点集合の列挙問題として定式化した.具体的には,パス保存性制約を満たす極大な頂点集合を列挙するアルゴリズムを与えた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1. まず,実験用データベースは判例ベース中で専門家による要約が付与されたものをいくつか選択し,手作業で入力している.要約は,文抽出ではなく,意味的な要約文であることから,判例が持つアスペクトのうち,どのアスペクトが重要かをガイドできる.こうした要約を利用することにより,一般には指数個存在する部分マッチングのうち,意味的に(法的に)重要なものに絞りこむことが可能になり,算出される記述的類似性の妥当性問題を回避できる策を採用した.この方法は,研究計画執筆当時から懸念された「算出される類似性の意味的妥当性」問題に直接的に答えることができるという意味で,研究全体の評価に関し,有利な見通しを与える.
2. 研究実績の概要で述べたように,本研究で考察する記述的類似性は,イベントグラフの各頂点が持つ素性構造から,グラフ間の部分写像に対する類似性に関する必要条件を用いる.必要条件は具体的には,素性レベルでの対応づけが素性記述の対象(名詞)に関する類似クラスとなることを要請し,技術的には,形式概念や制約付き2部グラフ(疑似)クリークとして定式化できる.研究申請時には形式概念のみを考えていたが,2部グラフ疑似クリークとの比較も必要なことから,両者共に実装し,予備実験は既に終了している.
3.上記 2で定まる対象語の類似クラスを一種の同値関係とみなし,同値類に置き換る操作により,抽象イベントグラフを求めることができる.抽象イベントグラフ中のパスには,元のイベントグラフでは実現されないパスも存在し,こうした「みかけのパス」を事前に緩く排除するための,密度に基づく連結成分を求めるアルゴリズムを実装した.
|
Strategy for Future Research Activity |
実験用のデータ,方式の策定,およびそこで用いる基本技法は 2)で述べたように完了している.2年目である今年度では,全体システムの実装を行う予定である.具体的には
1.対象(名詞)の類似性に基づきイベントグラフを抽象化した抽象グラフを作成し, 2.イベントグラフ間の部分マッチング(イベント間の対応関係)で,要約の具体化になるものだけに制限して抽出する手法を実装する.組み合わせ爆発を避けるために,抽象イベントグラフにおける連結成分毎に,パスの具体化が保証された頂点集合を列挙する一種のマイナーとして実現する(11の3の手法). 3. テストデータセットの構築は,初年度同様の指針の下でデータ追加を行う. 4. 2)で述べたように,要約を積極的に用いることにより,算出される記述的類似性の妥当性問題を回避できる見通しを得たが,要約が付与されていない判例文もある.後者の入力データに対しては,コーパスからの重要語抽出,複数文書要約技法を用いて専門家が行う要約の代替案として使う,もしくは複数文書要約における要素技術である関連性や顕現性を測るスコアー関数の利用等が考えら,これらのオプションを利用した記述的類似性についても検討・実装を試みる予定である.
|
Causes of Carryover |
当該課題に関する予備実験・データ整理を目的とする計算機の導入を予定していたが,現有設備を有効活用することで今年度の計画が滞りなく遂行できたことから導入を見送り,その結果,次年度使用額が生じた.
|
Expenditure Plan for Carryover Budget |
次年度使用額を翌年度助成金と合算することで,より高スペックな計算機の導入を計画している.次年度は実験がさらに本格化することから,実験環境をより充実させることは研究計画上も望ましいものと考える.
|