2011 Fiscal Year Annual Research Report
重要な特徴を自動的に発見する系列ラベリング学習の研究
Project/Area Number |
22500121
|
Research Institution | Ehime University |
Principal Investigator |
二宮 崇 愛媛大学, 大学院・理工学研究科, 准教授 (20444094)
|
Keywords | 自然言語処理 / 機械学習 / オンライン学習 |
Research Abstract |
平成23年度は、研究計画に従って、オンライン・グラフティングにおける学習アルゴリズムの改良を行い、数十万次元に及ぶ高次元言語データに対する性能評価を行った。平成22年度の研究により、従来の手法に比ベオンライン・グラフティングは精度性能が高いことが判明したが、一方計算コストも非常に高いことが判明した。従前は共役勾配法により最適化が行われていたが、このモジュールをオンライン学習に置き換えることにより大規模実験が行えるようにした。 平成22年度までは次元数の小さい比較的実験的なデータを用いていたが、平成23年度は本研究課題の目的である言語データを扱うため、文書分類のための識別学習を実験対象とした。言語データにおける特徴数は数十万におよび、非常に次元数の高いデータとなるため、ベクトル表現を配列から連想配列に変更し、実装を行った。しかし、オンライン・グラフティングにおいては特徴を一つ選択する毎に共役勾配法を用いてパラメータの最適化を行う必要があるため、言語データのような非常に特徴数の多いデータに対しては現実的な時間で計算を行うことができなかった。本研究では、(1)共役勾配法ではなく、より効率的な確率的勾配法を用いることにより学習を効率化し、(2)特徴一つ選択する毎にパラメータ最適化を行うのではなく、ある一定数の特徴を選択する毎にパラメータ最適化を行う手法を考案し適用した。(1)に関しては、大きな効率化が得られたものの精度がやや低下することが判明した。(2)に関しては、近似的な特徴選択手法となっているが、最適な特徴選択を与えた場合とほぼ同等の精度を実現し、また、この手法によって大きな効率化が得られることを実験により確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度までに、研究計画の予定通り、オンライン・グラフティングのアンサンブル学習、および、高次元言語データに対するオンライン・グラフティングの適応を実現した。
|
Strategy for Future Research Activity |
今後研究計画に沿って、さらに次元数の大きな超高次元特徴空間から重要な特徴を選択すること、および、系列データへの適応を行う。確率的勾配法による精度低下を解消するため、既製ライブランによるロジスティック回帰やSVMを用いるなどの対策を試みる。
|
Research Products
(4 results)