H26年度は,大規模な階層的文書分類データセットであるLSHTC3 Wikipedia Mediumデータ,および Wikipedia Largeデータを対象に階層的学習速度を向上させた.たとえば,Wikipedia Mediumデータを対象にした学習時間は,ファイル入出力等をすべて含めて30分程度に短縮することに成功した.これは,従来手法においては,数時間~数日の処理時間を必要としており,十分な速度向上を達成できた.高速化によるテスト時の分類性能が,世界最高レベルを維持できていることも確認した. H27年度は,高速化に関しては,H26年度において計画時の想定を大幅に超える高速化が実現できたことで,H26年度のフレームワークに,特徴抽出技術を導入することに研究の主眼を置いた. 従来は,階層的分類データセットに含まれる特徴をそのまま実験に使用していたが,今年度は,データセットで用意された特徴ベクトルから各特徴の分散ベクトル表現を学習し,特徴の分散ベクトルを新しい特徴として,元の特徴ベクトルに追加することで,階層的分類の精度が44.92%にまで向上することを示した.これまでの学習手法の工夫により,世界最高レベルの分類性能(精度44.52%)を得られていたが,それ以上の性能向上はほぼ困難になっていた状況であったので,0.4%の向上は特筆すべき成果である. また,Wikipedia Largeデータに関しては,分類対象クラスの階層構造が一般のグラフ構造であるが,グラフ構造をDAG構造に変換することにより,どのような効果があるかについても調査を行った. 年度の終わりに,計画通り階層的分類システムEzeをオープンソースソフトウェアとして公開した.
|