2016 Fiscal Year Research-status Report
Project/Area Number |
16K16114
|
Research Institution | Kyoto University |
Principal Investigator |
山田 誠 京都大学, 化学研究所, 助教 (00581323)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 特徴選択 / 非線形 |
Outline of Annual Research Achievements |
本期の研究項目である非線形特徴選択アルゴリズムの大規模データへの対応に関しては, HSIC LassoにNystrom近似を用いることで, アルゴリズムに必要なメモリ量を1000分の1程度に圧縮することに成功した. さらに, 超高次元データへの対応に関してはForward Selectionと大規模分散処理フレームワーク (Apache Spark)を利用することで, 100万次元×1万標本のデータでも効率よく処理できるフレームワークを確立した (A2). 具体的には, 100万次元×1万標本のデータから, 数時間で入力と出力間に非線形性のあるような特徴を選択できることが可能となった. このように, 100万次元を超える超高次元特徴から数時間で非線形性の特徴を選択できるアルゴリズムは世界初である. また, 提案した超大規模特徴選択アルゴリズムを前立腺癌の予測タスク (27万次元400サンプル)および酵素の識別タスク(106万次元1万5千サンプル)に適用した. その結果, 従来法では高い予測精度を得るために数千特徴が必要であったが, 提案法では数十特徴のみで従来法と同等以上の精度が得られることを確認した. 従来は高い性能を得るために多くの特徴が必要であり, モデルの解釈が難しかったが, 提案手法は数十特徴のみで高い性能が得られるため, モデルの解釈がしやすく大変有用であることがわかった. 本研究成果はすでにIEEE Transactions on Knowledge and Data Engineering (TKDE)に投稿中である. また, 大規模非線形特徴選択アルゴリズム開発で重要な技術であるスパースモデリングを利用して, 共著者らと共にACL, IJCAI, NIPS等の難関会議に推薦技術, クラスタリングの研究成果を報告した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
28年度に予定していた超大規模非線形特徴選択アルゴリズムの開発を完了し, さらにそのアルゴリズムをいくつかの実データ(前立腺癌の判定タスク, 酵素分類タスク)に応用し, 従来法(Lasso)よりもはるかに少ない特徴量で高い予測精度を達成できることを確認した. 本研究成果はすでにIEEE Transactions on Knowledge and Data Engineering (TKDE)に投稿中である.
|
Strategy for Future Research Activity |
29年度は以下の2点を重点的に実施する. (1) 提案手法の実応用. (2) ソフトウェア開発および配布.
今後は28年度に作成したソフトウェアを整備し, Github等で配布できるように準備する. さらに開発したソフトウェアを, バイオインフォマティクスやマテリアルズインフォマティクスの問題に適用し複数のタスクにおいて提案手法の性能を検証していく予定である.
|
Causes of Carryover |
本務先が2017年3月1日より変更となったことに伴い, 当初予定していた国内学会の参加および出張を取りやめたため.
|
Expenditure Plan for Carryover Budget |
国内学会(IBIS, 人工知能学会)への参加, ソフトウェア開発環境(Matlab)の購入, および 投稿中のジャーナルが採録された場合のオープンジャーナル化に研究費を利用しようと考えている.
|