研究実績の概要 |
本期の研究項目である非線形特徴選択アルゴリズムの大規模データへの対応に関しては, HSIC LassoにNystrom近似を用いることで, アルゴリズムに必要なメモリ量を1000分の1程度に圧縮することに成功した. さらに, 超高次元データへの対応に関してはForward Selectionと大規模分散処理フレームワーク (Apache Spark)を利用することで, 100万次元×1万標本のデータでも効率よく処理できるフレームワークを確立した (A2). 具体的には, 100万次元×1万標本のデータから, 数時間で入力と出力間に非線形性のあるような特徴を選択できることが可能となった. このように, 100万次元を超える超高次元特徴から数時間で非線形性の特徴を選択できるアルゴリズムは世界初である. また, 提案した超大規模特徴選択アルゴリズムを前立腺癌の予測タスク (27万次元400サンプル)および酵素の識別タスク(106万次元1万5千サンプル)に適用した. その結果, 従来法では高い予測精度を得るために数千特徴が必要であったが, 提案法では数十特徴のみで従来法と同等以上の精度が得られることを確認した. 従来は高い性能を得るために多くの特徴が必要であり, モデルの解釈が難しかったが, 提案手法は数十特徴のみで高い性能が得られるため, モデルの解釈がしやすく大変有用であることがわかった. 本研究成果はすでにIEEE Transactions on Knowledge and Data Engineering (TKDE)に投稿中である. また, 大規模非線形特徴選択アルゴリズム開発で重要な技術であるスパースモデリングを利用して, 共著者らと共にACL, IJCAI, NIPS等の難関会議に推薦技術, クラスタリングの研究成果を報告した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
28年度に予定していた超大規模非線形特徴選択アルゴリズムの開発を完了し, さらにそのアルゴリズムをいくつかの実データ(前立腺癌の判定タスク, 酵素分類タスク)に応用し, 従来法(Lasso)よりもはるかに少ない特徴量で高い予測精度を達成できることを確認した. 本研究成果はすでにIEEE Transactions on Knowledge and Data Engineering (TKDE)に投稿中である.
|