研究課題/領域番号 |
19H04169
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 京都大学 |
研究代表者 |
馬見塚 拓 京都大学, 化学研究所, 教授 (00346107)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2021年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
2020年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2019年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
|
キーワード | 機械学習 / バイオインフォマティクス / 高次元機械学習 |
研究開始時の研究の概要 |
現代社会のデータに急増する以下2つの組み合わせに着目する。 1) テンソル:例えば、購買データは従来の「ユーザx商品」から購買履歴データとして「ユーザx商品x時間」が得られる。 2) 複数データ:購買データのみならずSNS等からユーザ間のリンク(隣接行列:「ユーザxユーザ」)等が補助情報として得られ、モード(例えばユーザ)を共有する複数データ(行列)が得られる。 従って、「モードを共有する複数テンソルの内在構造の効率的解析手法」構築を目指す。具体的に、複数テンソルを表現(近似)可能なノルムを設計し、ノルムの低ランクパラメータの効率的学習手法の構築及び学習誤差の解析から問題の包括・普遍的理解を行う。
|
研究成果の概要 |
現代のビッグデータには、以下の2つの特徴がある。1,高次元データ(例えば、ユーザx商品x時間という購買データ)、2、モードを共有する複数データ(例えば、上記高次元データに、ユーザ間の情報を加えれば、ユーザというモードを共有する)。そこで、モードを共有する複数高次元データから、内在する因子を効率的に抽出するための、なるたけ一般的な手法を構築した。具体的には、複数高次元データを表現可能なノルムを、効率的な学習が可能なように開発し、その性質を解析するとともに、性能の優位性を実験的に示した。また、開発経験を活かし、高次元データと行列に関する様々な問題への解決手法を提案し、性能を応用において実証した。
|
研究成果の学術的意義や社会的意義 |
現在、科学、工学、ビジネス等、社会の様々な場所で多様なデータが生まれるビッグデータの時代を迎えており、データに内在する構造を効率的に理解する技術の整備が喫緊の課題である。特に、現代では、モードを共有する複数高次元データがよく見られる。このようなデータに対し、本研究は、データに内在する構造を理解する一般的な枠組みと実際の事例を与える。また、本研究で得られた知見を使うことにより、関係するデータに対しても、効率的で精度の高い手法の構築が可能なことを示した。以上から、本研究は、現代に増大しつつある、より複雑な複数の関係データに対するデータ科学および機械学習手法開発の進展に大きく貢献する。
|