2017 Fiscal Year Research-status Report
Project/Area Number |
16K00291
|
Research Institution | Hokkaido University |
Principal Investigator |
原口 誠 北海道大学, 情報科学研究科, 特任教授 (40128450)
|
Co-Investigator(Kenkyū-buntansha) |
大久保 好章 北海道大学, 情報科学研究科, 助教 (40271639)
吉岡 真治 北海道大学, 情報科学研究科, 教授 (40290879)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 構造類似性 / 構造類比 / 属性相関検出 / 形式概念 / 汎化パターン / 非負行列分解 / グラフ正則化項 |
Outline of Annual Research Achievements |
構造類推の対象領域が複数個与えられる場合に,類比検出の計算量の壁を破ることが本研究の主目標である.そのために,平成29年度は主として下記の研究項目を実施した.
(1) 記述的構造類比の基礎理論の確立: 構造類推に関する昔からの,そしてごく最近の研究に至るまで,多くの研究においては2つの対象領域を想定していた.この前提にたつ限り,類似性の多様性を失うことなく構造類比を求めることは現実的には不可能である.そもそも,類似性は観点や文脈によって異なり,類推研究の難しさはそうした観点や文脈が陽には与えられないことにも起因する.そこで本年度は,複数個の対象記述から一定の割合以上の対象において成立する汎化パターン抽出問題を考え,類似性を支持する文脈をパターンとそれを支持する対象部分集合の検出問題として扱うことを提案した.具体には,相関ルール検出問題と同様に,最小支持度で決まる数の領域の最小汎化パターンを求める.汎化パターン中の変数は,領域間の個体の類似クラスを表し,個体とロールに関する形式概念となる.これに基づき,形式概念の合成操作として最小支持度を持つ汎化パターンが求まることを明らかにした.
(2) ヒントからの属性の類似クラス抽出検出: 異なる属性を持つ2つの領域データがデータ行列として与えられる場合に,類似・相似な属性対集合を求める問題を考えた.正準相関分析では大域的な相関構造の共通性を最適化により求める.一方,ここでは局所的な相関構造の一致を局所相関として考え,非負行列分解で求まる部分空間上での近接性でとらえる方式を提案し実験的に検証した.ただし,相関の背後にある文脈・観点を,ヒントと呼ばれる少数の属性対としてを与え,部分空間上でのヒントの近接性をグラフ正則化項として制約する方式を与え実験的に評価した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
検証システム構築とその実験が遅れている.具体には,構造類比の厳密な基礎理論の確立に拘りすぎ,近似的な最良解として構造類比を求める統合システムの設計・開発・検証を後回しにしてしまったことが原因である.
現実問題としては,近似的な局所的類似クラスの列挙を前提とした多少荒い理論でとどめておくべきであった.その踏ん切りがつき,また,各種のツールはこれまで整備・開発してきたもの,すなわち,接続数下限制約を持つ擬似クリーク高速列挙器(Int’l. J. Data Science and Analytics 2(3-4): 145-158, 2016),孤立クリーク列挙器(Int'l Conf on Machine Learning and Data Mining 2016) ,正則化項を持つ非負行列分解による類似クラス抽出器(Int'l Conf on Knowledge, Information and Creativity Support System 2017)等が整備済みであり,「今後の研究の推進方策」で述べる方策にしたがって最終年度で研究を纏めることは十分可能であると考えている.
|
Strategy for Future Research Activity |
最終年度にあたり,構造類比の多様性をできるだけキープした形で列挙できるデータマイニング型のエンジン構築に全力を挙げる.そのために,「研究実績の概要」で述べた2つの要素理論と技術をまとめ上げる形でシステムの実現を図る.具体的には,まず,計算量の立場からは多少不利な形式概念による類似クラス抽出の代替案として,属性の相関・類似関係を求めるための非負行列分解を,個体の相似・類似関係を算出するものとして使う.行と列を単純に転置し,さらに,ヒントは対応付けられるべき個体の対をユーザが特に注目する類比検出のためのヒントとして与えればよいだろう.対象領域数は2個とは限らないが,すべての領域間で例示する必要はなく,ユーザが特に気になる個体対に対してマークすれば良いとする.
平成29年度に実装した属性間の相似・類似関係抽出方式と決定的に異なる点は,単に行と列の転置という形式面だけではない.部分空間において近接すべき個体対は複数領域に跨る個体群に対する制約として機能し,このことはグラフ正則化項がより強力に働き,ユーザの直感により合致した部分空間を算出できる可能性を示唆する.得られた部分空間における個体(ベクトル)の相互に近接した密な部分集合を,「現在までの進捗状況」で述べた(擬似)クリークとして列挙し,必要な複数領域に跨る個体の類似クラスとして列挙する.必要に応じその品質を管理するためのトップN法等の導入も図る.
次に,局所類似クラスを原子パターン化し,それらを組み合わせるデータマイナーとして合成パターンを列挙する「データマイニングエンジン」を前年度に構築した理論に基づいて実装・実験する.なお,実験用データとしては,新聞や物語等のテキストを用いるが,これらの処理ツール等は既に整備済みである.
|
Causes of Carryover |
研究課題に関する参考図書の購入について,年度当初の予定より実支出額が少なく,その結果,次年度使用額が生じた. 当該度使用額は,使用計画の変更を生ずる額ではないことから,引き続き参考図書の購入にあてる予定である.
|