2021 Fiscal Year Annual Research Report
高次元ブール値テンソルデータからの多項閉集合を用いた知識発見
Project/Area Number |
21H03499
|
Research Institution | Kyoto University |
Principal Investigator |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
Co-Investigator(Kenkyū-buntansha) |
小林 靖明 京都大学, 情報学研究科, 助教 (60735083)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | データマイニング / 高次元ブール値データ / 閉集合 / 列挙アルゴリズム |
Outline of Annual Research Achievements |
本年度は研究計画における課題1(多項閉集合の新たな数学的性質の解明)について重点的に研究を行った.2次元ブール値データからデータマイニング手法において,2項閉集合を次々と生成し列挙する方法では,生成された2項閉集合が数学的に束構造を構成するため,マイニングの結果として理解しやすく有用であるとされてきた.しかし,実データが巨大化すると,束構造はいたずらに複雑になり,理解しづらいものになると指摘されてきた.知られている.この問題を解決するために,できるだけ簡約された束を構成して理解しやすいマイニング結果を構成する方法を提案した. 2次元ブール値データは,対象の集合と属性の集合が与えられたときに,各対象がどの属性を持つか,を表現したものである.束の簡約手法では,まず対象全体の集合をいくつかのグループに分割する.この分割では,各グループ内の対象はできるだけ共通した属性を持ち,異なるグループ同士はできるだけ背反になるようにする.各グループ内の対象が持つ属性の集合は厳密には異なっているが,グループ内では同一とみなす.従来手法ではこの分割を求めるために特異値分解を用いていたが,それでは結果として得られる束の「理解しやすさ」を表現できない. そこで本研究における提案手法では,このようなグループ分割で最適なものを見つけるために,整数計画法を用いる.目的関数は,各対象を同一グループに入れるかどうかをブール値,すなわち0と1という整数を用いて表す.結果として得られる束の「理解しやすさ」を表現するハイパーパラメータを導入し,その値を制約条件として設定する. 実データを用いて計算機実験を行った結果,従来手法である特異値分解を用いる方法よりもはるかに高速かつ,「理解しやすさ」が担保された束が生成されることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究成果は上述の通り導出した.令和3年度はコロナ禍の影響により国際会議での発表はできなかったが,期間を繰り越して令和4年度には論文をとりまとめた上で,学術雑誌に投稿した.
|
Strategy for Future Research Activity |
引き続き課題2,課題3に取り組む.課題2については,2項閉集合の生成と列挙のアルゴリズムをZDDという集合列挙アルゴリズムで実装ができることが判明しているので,多項閉集合の生成と列挙のアルゴリズムもZDDを応用できるのではないかと予想しているので,その予想を検証する.課題3については,生命システムの機能を分析するためのデータセットの集積体であるKEGGデータベース中のデータセットを対象とする計画である.
|