研究概要 |
今年度はアンサンブル学習の枠組みで,ROCカーブ最適化のためのブースティング法,バイオインフォマティクスデータに対して有効な判別法,行列因子化法の考案を行った. ・ 2値ラベルにおいて順序が付与されているデータではROCカーブの下側面積(AUC)が判別器評価の指標として用いられる.従来,AUCの最適化は非凸な問題であるため直接最適化することは難しかったが,適切な近似コスト関数を考案することで,AUCを最大化する判別器を直接構成するための手法を提案した.また,提案アルゴリズムの統計的性質などを議論し,外れ値に影響を受けにくいロバストなコスト関数を考案した. ・ 病理診断システムなどに用いられるバイオインフォマティクスデータは例題数が入力の次元(遺伝子数)に比べて著しく少ない.このようなデータに対して,判別に有効な遺伝子を選択することは重要な問題であるが,従来の選択法では,例題数の少なさとデータに含まれるノイズの影響により,信頼性の高い選択を行うことができなかった.この問題に対し,ブートストラップ法を用いて性能の最悪評価を行うことで信頼性の高い遺伝子数選択,判別器を構成するための手法を提案し,人工データ,実データでその有効性を確かめた. ・ アイテムに対して複数のユーザーが評価を行ったデータを元に推薦を行うシステムにおいて基幹技術として用いられている行列(テンソル)因子化法に対して,2つの拡張を行った.(1) ユーザーの嗜好を反映するようなグループが存在するデータを対象として,混合モデルを用いて拡張を行い,その有効性を大規模な実データで示した.(2) データの各変量が異なる素性を持つような場合を対象として,指数型分布族を用いた拡張を行い,効率的な最適化を行うための近似法を提案した.実データを用いて提案法と従来手法と比較し,提案法が精度の高い予測性能を発揮することを確認した.
|