2011 Fiscal Year Annual Research Report
Project/Area Number |
22500172
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
西田 健次 独立行政法人産業技術総合研究所, ヒューマンライフテクノロジー研究部門, 主任研究員 (50344148)
|
Co-Investigator(Kenkyū-buntansha) |
栗田 多喜夫 広島大学, 大学院・工学研究科, 教授 (10356941)
|
Keywords | 教師あり学習 / サポートベクターマシン / カーネル法 / アンサンブル学習 / マルチカーネル学習法 |
Research Abstract |
最適な訓練サンプルを選択することで識別器の汎化性能向上を目指しているが、最適な訓練サンプルを得るためには膨大な計算量が必要となる。そこで、訓練サンプルからランダムに抽出した識別器を複数組み合わせることで、高性能な識別器を構成する手法を研究した。本年度は、抽出するサンプルとして最小セットとなる1ペア(正例負例1サンプルずつ)を抽出した識別器を組み合わせる手法と少数(全訓練サンプルの1%~10%程度)のサンプルを抽出した識別器を組み合わせる手法を検討した。実験において、抽出されたサンプルによって訓練される識別器はRBFカーネルによるサポートベクターマシン(SVM)を用い、それぞれの識別器のパラメータもランダムに与えることとした。 1ペア抽出手法においては、与えられた人工データによるサンプルセットに対して、全サンプルを訓練に使用し、最適なパラメータを与えたSVMよりも高い汎化性能を示し、理論的な上限とされるベイズ推定による識別に迫る性能を示した。1ペア抽出手法は、人工データによる評価では高性能を示したが、ベンチマークとして公開されているデータに対しては、組み合わせるべき識別器数が大きくなってしまうため、訓練に必要な計算量が大きくなってしまうため、高性能化に難点があった。 そこで、複数のサンプルを抽出した識別器を組み合わせる手法も検討した。複数サンプル抽出手法では、一つの識別器に対して与えるサンプル数を増加すると個々の識別器の性能は高くなる傾向がみられ、1ペア抽出手法よりも少ない識別器数で同等の性能が得られることがわかった。しかし、抽出するサンプル数があまりに大きくなると組み合わせられた識別器の汎化性能が低下する場合があることも示された。 識別性能、訓練に要する計算量に関して、より最適な手法を検討していく必要があることが示された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
二件の研究発表を通して、識別性能(汎化性能)に関しては当初の目標を達成しつつある。識別器の訓練に要する計算量の削減が、トータルな性能向上に重要な課題となっている。
|
Strategy for Future Research Activity |
識別器の重み付けにL1正則化などのスパースな解を求める手法を導入し、最終的に組み合わせられる識別器数の削減を検討してみる。また、新たな識別器を加える際に、全体の識別性能を向上するものだけを付け加えるなどの逐次的な手法についても検討する。
|
Research Products
(5 results)