研究課題/領域番号 |
21H03499
|
研究機関 | 京都大学 |
研究代表者 |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
研究分担者 |
小林 靖明 京都大学, 情報学研究科, 助教 (60735083)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | データマイニング / 高次元ブール値データ / 閉集合 / 列挙アルゴリズム |
研究実績の概要 |
本年度は研究計画における課題1(多項閉集合の新たな数学的性質の解明)について重点的に研究を行った.2次元ブール値データからデータマイニング手法において,2項閉集合を次々と生成し列挙する方法では,生成された2項閉集合が数学的に束構造を構成するため,マイニングの結果として理解しやすく有用であるとされてきた.しかし,実データが巨大化すると,束構造はいたずらに複雑になり,理解しづらいものになると指摘されてきた.知られている.この問題を解決するために,できるだけ簡約された束を構成して理解しやすいマイニング結果を構成する方法を提案した. 2次元ブール値データは,対象の集合と属性の集合が与えられたときに,各対象がどの属性を持つか,を表現したものである.束の簡約手法では,まず対象全体の集合をいくつかのグループに分割する.この分割では,各グループ内の対象はできるだけ共通した属性を持ち,異なるグループ同士はできるだけ背反になるようにする.各グループ内の対象が持つ属性の集合は厳密には異なっているが,グループ内では同一とみなす.従来手法ではこの分割を求めるために特異値分解を用いていたが,それでは結果として得られる束の「理解しやすさ」を表現できない. そこで本研究における提案手法では,このようなグループ分割で最適なものを見つけるために,整数計画法を用いる.目的関数は,各対象を同一グループに入れるかどうかをブール値,すなわち0と1という整数を用いて表す.結果として得られる束の「理解しやすさ」を表現するハイパーパラメータを導入し,その値を制約条件として設定する. 実データを用いて計算機実験を行った結果,従来手法である特異値分解を用いる方法よりもはるかに高速かつ,「理解しやすさ」が担保された束が生成されることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究成果は上述の通り導出した.令和3年度はコロナ禍の影響により国際会議での発表はできなかったが,期間を繰り越して令和4年度には論文をとりまとめた上で,学術雑誌に投稿した.
|
今後の研究の推進方策 |
引き続き課題2,課題3に取り組む.課題2については,2項閉集合の生成と列挙のアルゴリズムをZDDという集合列挙アルゴリズムで実装ができることが判明しているので,多項閉集合の生成と列挙のアルゴリズムもZDDを応用できるのではないかと予想しているので,その予想を検証する.課題3については,生命システムの機能を分析するためのデータセットの集積体であるKEGGデータベース中のデータセットを対象とする計画である.
|