Project/Area Number |
21H03499
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
Co-Investigator(Kenkyū-buntansha) |
小林 靖明 京都大学, 情報学研究科, 助教 (60735083)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥15,730,000 (Direct Cost: ¥12,100,000、Indirect Cost: ¥3,630,000)
Fiscal Year 2023: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2022: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2021: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
|
Keywords | データマイニング / 高次元ブール値データ / 閉集合 / 列挙アルゴリズム |
Outline of Research at the Start |
以下の3つの課題を設定する. 課題1.多項閉集合の新たな数学的性質を解明する.研究代表者以外の国外グループが進めてきた束論的・代数的な性質の分析ではなく,関係データの主要演算である「自然結合」を考慮し,さらにノイズや誤差を考慮した弱閉集合を基礎にした新たな数学的理論を構築する. 課題2.2項閉集合の列挙アルゴリズムを利用しながら多項閉集合を効率的に列挙するアルゴリズムを構成する. 課題3.実データを用いて,多項閉集合列挙の有用性を検証し,アルゴリズムの改善を行う.また頻出2項閉集合が持つデータ圧縮としての性質を多項閉集合も持つかどうかを検証しする.必要に応じて課題1・課題2にフィードバックする.
|
Outline of Annual Research Achievements |
本年度はまず課題2(多項閉集合の高速列挙)に取り組んだ.基本方針は,2次元ブール値データから2項閉集合を生成し列挙するアルゴリズムを利用しながら,高次元ブール値データから多項閉集合を列挙するアルゴリズムを設計し,プログラムとしての実装を行う,というものである.2項閉集合は組合せ集合を列挙ためのアルゴリズムであるZDDを利用して実装できることが知られている.さらにZDDは集合間の演算を高速に計算できるため,本研究ではZDDを利用することとした.また本年度は3次元ブール値データを対象とした.開発した列挙アルゴリズムはZ-TCAと名付けている. 2項閉集合を生成し列挙するためには,2項閉集合が集合から集合へ定義された2つの写像をを合成した写像の不動点になるという性質を用いる.このれらの写像を2次元以上に拡張することは可能ではあるが,多項閉集合が不動点と一致するという便利な性質は備えていないものの,次元を1次元ずつ減少させることにより2項閉集合の列挙に還元できる,という性質がある.集合から集合への写像は集合の演算として表現できるため,ZDDを用いれば多項閉集合の生成と列挙が高速化可能となる.この集合演算のZDDによる実装を設計し,従来研究で提案されていた「逐次的な次元数削減と集合間演算によるアルゴリズム」の実装に適用した結果,素朴な集合演算の実装を利用した場合に比して,実データを用いた計算機実験において3倍の高速化が達成された. さらに課題3にも取り組んだ.年度当初の計画では,生命システム機能分析のためのデータセット集積体であるKEGGデータベース中のデータセットを使う予定であったが,この研究に利用するには大規模なフォーマット変換が必要であることから断念し,Wikipediaから生成された知識グラフを利用することとし,知識グラフから有用な3項閉集合を抽出する実験を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
課題2の研究成果は,国内研究会で論文として発表済みである.さらに当該論文を発展させて,英語論文として学術雑誌に投稿中である.課題3の研究成果についても,KEGGデータセベースを利用するという計画は断念せざるを得なかったが,別の目的で利用していた知識グラフが3次元ブール値データとみなすことができ,3項閉集合のマイニング対象として有望であることが判明し,実際にマイニングを行った.
|
Strategy for Future Research Activity |
来年度は主に課題3に取り組む.知識グラフからの3項閉集合のマイニングについては論文投稿を目指すとともに,XAIとしても意味を持つのではないかと予想しており,さらなる展開を目指すまたのマイニング対象する3次元ブール値データとして,生命科学分野で用いられるデータセットで大きなフォーマット変化を要しないものが見つかったので,計算機実験を行いながら,課題1,2の結果へのフィードバックも検討する.
|