2022 Fiscal Year Annual Research Report
高次元ブール値テンソルデータからの多項閉集合を用いた知識発見
Project/Area Number |
21H03499
|
Research Institution | Kyoto University |
Principal Investigator |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | データマイニング / 高次元ブール値データ / 閉集合 / 列挙アルゴリズム |
Outline of Annual Research Achievements |
本年度はまず課題2(多項閉集合の高速列挙)に取り組んだ.基本方針は,2次元ブール値データから2項閉集合を生成し列挙するアルゴリズムを利用しながら,高次元ブール値データから多項閉集合を列挙するアルゴリズムを設計し,プログラムとしての実装を行う,というものである.2項閉集合は組合せ集合を列挙ためのアルゴリズムであるZDDを利用して実装できることが知られている.さらにZDDは集合間の演算を高速に計算できるため,本研究ではZDDを利用することとした.また本年度は3次元ブール値データを対象とした.開発した列挙アルゴリズムはZ-TCAと名付けている. 2項閉集合を生成し列挙するためには,2項閉集合が集合から集合へ定義された2つの写像をを合成した写像の不動点になるという性質を用いる.このれらの写像を2次元以上に拡張することは可能ではあるが,多項閉集合が不動点と一致するという便利な性質は備えていないものの,次元を1次元ずつ減少させることにより2項閉集合の列挙に還元できる,という性質がある.集合から集合への写像は集合の演算として表現できるため,ZDDを用いれば多項閉集合の生成と列挙が高速化可能となる.この集合演算のZDDによる実装を設計し,従来研究で提案されていた「逐次的な次元数削減と集合間演算によるアルゴリズム」の実装に適用した結果,素朴な集合演算の実装を利用した場合に比して,実データを用いた計算機実験において3倍の高速化が達成された. さらに課題3にも取り組んだ.年度当初の計画では,生命システム機能分析のためのデータセット集積体であるKEGGデータベース中のデータセットを使う予定であったが,この研究に利用するには大規模なフォーマット変換が必要であることから断念し,Wikipediaから生成された知識グラフを利用することとし,知識グラフから有用な3項閉集合を抽出する実験を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
課題2の研究成果は,国内研究会で論文として発表済みである.さらに当該論文を発展させて,英語論文として学術雑誌に投稿中である.課題3の研究成果についても,KEGGデータセベースを利用するという計画は断念せざるを得なかったが,別の目的で利用していた知識グラフが3次元ブール値データとみなすことができ,3項閉集合のマイニング対象として有望であることが判明し,実際にマイニングを行った.
|
Strategy for Future Research Activity |
来年度は主に課題3に取り組む.知識グラフからの3項閉集合のマイニングについては論文投稿を目指すとともに,XAIとしても意味を持つのではないかと予想しており,さらなる展開を目指すまたのマイニング対象する3次元ブール値データとして,生命科学分野で用いられるデータセットで大きなフォーマット変化を要しないものが見つかったので,計算機実験を行いながら,課題1,2の結果へのフィードバックも検討する.
|