2010 Fiscal Year Annual Research Report
不確かなクラスラベルを持つデータの解析手法に関する研究
Project/Area Number |
22700191
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
渡辺 顕司 独立行政法人産業技術総合研究所, フェロー, 産総研特別研究員 (50571064)
|
Keywords | 統計的パターン認識 / 機械学習手法 / 多変量解析 / 数量化IV類 / ロジスティック回帰 / 付与ラベルの確信度推定手法 |
Research Abstract |
当該年度の研究では、学習データにおけるクラスラベルの不確定性をも考慮し、未知データのクラスラベルの確からしさ(確信度)を推定する手法を提案した。 提案手法は、半教師あり学習手法の枠組みで数量化IV類に着目し、ラベル値の表現にロジスティック関数を導入することで、ラベル値を事後確率として推定している点に新規性がある。ロジスティック回帰で推定する事後確率および数量化IV類で推定するラベル値を確信度と捉え、これらの手法と提案手法の識別性能などをレポジトリデータセットに対する実験で比較したところ、提案手法は、ロジスティック回帰および数量化IV類よりも信頼性の高い確信度を推定することが出来た。このとき、少数のラベル付き学習サンプルを用いた識別実験でも、同様の結果が得られた。 さらに提案手法では、新規未知データのラベル確信度は、新規未知データを事前に学習した識別空間に射影することで得られるので、一般的な数量化IV類を用いた半教師あり学習手法のように再学習を行う必要がなく、計算コストの観点からも優れている。 本研究成果の意義は、確かなクラスラベルを持つ少数の学習データを用いて、ラベルなしデータの帰属するクラスとクラスラベルの確信度を同時に推定することが出来る手法を提案したことである。これまでの生物学分野のデータ解析などでは、実験者の事前知識と経験によってクラスラベルを手動で付与した(不確かなクラスラベルを含む)データを用いて、未知の事象を計測したデータの分類・識別を手動で行ってきた。このようなデータ解析において、本研究は、確かなクラスラベルを持つ少数の学習データを用いて、統計的な基準を持って定量的にデータを分類・識別できる手法を提案しており、不確定なクラスラベルを持つデータの(新しい)パターン認識的解析手法を確立する上で、重要な研究成果を出したと言える。
|