2011 Fiscal Year Annual Research Report
不確かなクラスラベルを持つデータの解析手法に関する研究
Project/Area Number |
22700191
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
渡辺 顕司 独立行政法人産業技術総合研究所, フェロー, 産総研特別研究員 (50571064)
|
Keywords | ロジスティック回帰 / 数量化IV類 / 半教師あり機械学習手法 / 最適化 |
Research Abstract |
当該年度の研究では、昨年度に提案したクラスラベルの確からしさ(確信度)推定手法を改良し、既存の機械学習手法と同等以上の汎化性能を持った半教師あり機械学習手法を確立した。さらに、計算コスト(計算時間および使用メモリー量)の削減を可能とする確信度推定手法の最適化に関する研究を行った。 提案手法は、昨年度提案した確信度推定手法にロジスティック回帰を正則化項として導入することで、(信頼できる)ラベル付きサンプルのサンプル数によらず、未知サンプルに対して、高い汎化性能を持たせることに成功した。このとき、正則化項に対するバランシングパラメータも自動で決定できる枠組みを提案し、パラメータフリーな半教師あり識別手法(確信度推定手法)を確立した。 提案手法を実データに適用することを考えた場合、手法の社会的な波及を考慮すると、計算コストの削減が重要である。そこで、予備研究として、計算コストの削滅を目的とした、教師ありの確信度推定手法と捉えられるロジスティック回帰の最適化手法に関する研究を行った。 これら提案手法の性能評価を行ったところ、既存手法と比較して、優れた確信度推定結果を示し、計算コストの削減に成功した。 本研究成果の意義は、確かなクラスラベルを持つ少数の学習データを用いて、ラベルなしデータの帰属するクラスとクラスラベルの確信度を同時に推定することが出来る手法を提案したことである。これまでの生物学分野のデータ解析などでは、実験者の事前知識と経験によってクラスラベルを手動で付与した(不確かなクラスラベルを含む)データを用いて、未知の事象を計測したデータの分類・識別を手動で行ってきた。このようなデータ解析において、本研究は、確かなクラスラベルを持つ少数の学習データを用いて、統計的な基準を持って定量的にデータを分類・識別できる手法を提案しており、不確定なクラスラベルを持つデータの(新しい)パターン認識的解析手法を確立する上で、重要な研究成果を出したと言える。また、提案手法の社会での波及を考慮し、数理的なレベルで計算コストの削減を行ったことも、優れた研究成果である。
|