2020 Fiscal Year Annual Research Report
Efficient estimation of data structure from multiple tensors
Project/Area Number |
19H04169
|
Research Institution | Kyoto University |
Principal Investigator |
馬見塚 拓 京都大学, 化学研究所, 教授 (00346107)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 機械学習 |
Outline of Annual Research Achievements |
研究目的は、以下であった。すなわち、まず、現代社会のデータに急増している以下2つの点の組み合わせに着目した:1) テンソル(従来の行列のみならず高次元のテンソルが得られる)、2)複数データ(購買データのみならずSNS 等からユーザ間のリンク(隣接行列:「ユーザ×ユーザ」) 等が補助情報として得られ、モード(例えばユーザ) を共有する複数データ(行列) が得られる)。以上の2つの特徴を踏まえ、「モードを共有する複数テンソルの内在構造の効率的解析手法」構築を研究の目的とした。研究実施計画では、複数テンソルを表現(近似)可能な低ランクパラメータによるノルムを設計し、ノルムの効率的学習手法の構築及び学習誤差の解析から問題の包括・普遍的理解を目指した。一方、今年度の研究実績においては、より現実的なデータへの適用を考慮し、一般的なテンソルではなく制限のあるテンソルに関して、具体的な学習アルゴリズムを提案した。例えば、グラフの観点から、グラフのエッジ(ハイパーエッジ)が最大N個のノードを持つハイパーグラフは、N次元のテンソルとみなすことができる。従って、N次元のテンソル、すなわち、ハイパーエッジのノード数を最大Nとしたハイパーグラフの学習手法をハイパーグラフニューラルの枠組みで構築した。特に、N=3とした場合に、実データに対する適用から構築手法の性能が、特定の応用対象、すなわちバイオインフォマティクスでの非常に重要な問題である、複数薬物の副作用予測問題に対して、既存手法をはるかに凌駕する性能を挙げることが確認できた。これらの成果は、いくつかの論文としてまとめられ、特に、バイオインフォオマティクスのトップ国際会議であるISMB等に採択され、成果が世界のトップレヴェルにあることが実証できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要で述べたように、今年度までの研究では、テンソルの学習において、より現実的なデータへの適用を考慮し、一般的なテンソルではなく制限のあるテンソルに関する、実際的な学習アルゴリズムを提案した。具体的に、N次元のテンソルは、グラフの観点から、グラフのエッジ(ハイパーエッジ)が最大N個のノードを持つハイパーグラフとみなすことができるため、そのような条件(すなわち、ハイパーエッジのノード数を最大N)でのハイパーグラフの学習手法をハイパーグラフニューラルの枠組みで構築した。より具体的には、学習モデルはブロックモデルで、ブロックを構成するパラメータの値をハイパーグラフニューラルネットワークで学習する。実データに対する適用は、特に、N=3とした場合に、バイオインフォマティクスでの非常に重要な問題である、複数(2つの)薬物の副作用予測問題を考慮した。この問題において、2つの薬物と副作用が3つのノードの結合としてハイパーエッジとして表現される。ハイパーエッジのノード数を3に制限し(すなわち3次元のテンソル)、このようなブロックモデルのパラメータの学習から、実際の応用(薬物の副作用予測問題)において、既存手法をはるかに凌駕する性能を挙げることが確認できた。これらの成果は、いくつかの論文としてまとめられ、特に、バイオインフォオマティクスのトップ国際会議であるISMB等に採択され、成果が世界のトップレヴェルにあることが実証できた。
|
Strategy for Future Research Activity |
本年度までの研究成果を踏まえ、今後の研究推進方法として、以下の2つが考慮される。1)テンソル学習の推進:今年度の学習ではテンソル(ハイパーグラフ)の具体的な学習手法の提案と実データへの応用を行った。特に、ハイパーグラフニューラルネットワークによる学習手法を構築し、その学習手法の性能を確認した。このような実データに即した高次元データ(テンソルやハイパーグラフ)の学習手法を提案し、実データ・実問題により、その性能を確認していく。この際に、1つのテンソルだけでなく、モードを共有する複数のテンソルに対しても、同様に高精度・高性能な機械学習手法を構築し、性能を実問題(及びデータ)で確認する。2)テンソル学習の解析:当初の研究目的により即した内容は、テンソルを表現(近似)可能な低ランクパラメータによるノルムを設計し、ノルムの効率的学習手法の構築及び学習誤差の解析等から問題の包括・普遍的理解を目指すことである。特に、モードを共有する複数のテンソルに対して、この研究を推進する。
|