平成23年度は、研究計画に従って、オンライン・グラフティングにおける学習アルゴリズムの改良を行い、数十万次元に及ぶ高次元言語データに対する性能評価を行った。平成22年度の研究により、従来の手法に比ベオンライン・グラフティングは精度性能が高いことが判明したが、一方計算コストも非常に高いことが判明した。従前は共役勾配法により最適化が行われていたが、このモジュールをオンライン学習に置き換えることにより大規模実験が行えるようにした。 平成22年度までは次元数の小さい比較的実験的なデータを用いていたが、平成23年度は本研究課題の目的である言語データを扱うため、文書分類のための識別学習を実験対象とした。言語データにおける特徴数は数十万におよび、非常に次元数の高いデータとなるため、ベクトル表現を配列から連想配列に変更し、実装を行った。しかし、オンライン・グラフティングにおいては特徴を一つ選択する毎に共役勾配法を用いてパラメータの最適化を行う必要があるため、言語データのような非常に特徴数の多いデータに対しては現実的な時間で計算を行うことができなかった。本研究では、(1)共役勾配法ではなく、より効率的な確率的勾配法を用いることにより学習を効率化し、(2)特徴一つ選択する毎にパラメータ最適化を行うのではなく、ある一定数の特徴を選択する毎にパラメータ最適化を行う手法を考案し適用した。(1)に関しては、大きな効率化が得られたものの精度がやや低下することが判明した。(2)に関しては、近似的な特徴選択手法となっているが、最適な特徴選択を与えた場合とほぼ同等の精度を実現し、また、この手法によって大きな効率化が得られることを実験により確認した。
|