研究課題/領域番号 |
25330271
|
研究機関 | 豊田工業大学 |
研究代表者 |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 大規模文書分類 / 階層的分類 / DCASVM / ACCS / LSHTC3 Wikipedia data / Big Data |
研究実績の概要 |
H25年度は,大規模な階層的文書分類データであるLSHTC3 Wikipedia Medium データを対象にしたが,H26年度は,超大規模な階層的文書分類データである同 Wikipedia Largeデータを対象とする計画であった.Wikipedia Largeデータは,2,365,436件の訓練データに基づき,478,020カテゴリーにデータを分類する学習を行う必要がある.また,カテゴリーの階層構造も「一般のグラフ構造」であり木構造やDAGと比べて計算量が大幅に増加する.単純に従来の機械学習手法を用いると,メモリ不足のために扱えなかったり,学習に1ヶ月以上必要となる「機械学習におけるBig Data」と言える.今年度の研究では,学習データを階層構造にメモリ効率よく伝播する方法を考案するとともに,Pegasos (Primal Estimated sub-GrAdientSOlver for SVM)を用いた階層的分類システムをC++により実装したシステムをWikipedia Largeデータに適用することで,シングルコアによる処理で,学習時間を50時間,分類時間を4.4時間とすることに成功した.予測制度はaccuracy=0.3185,MicroF1=0.3644を達成した.特に MicroF1スコアは,既存の同データを用いた他システムと比較して,最も高いスコアを達成した. さらに,下記の改良により,計画時の予想を超えて,並列処理に頼ることなく,予測性能を維持したままWikipedia Medium データに対する学習時間を従来の数時間から 30分程度に大幅に短縮することに成功した. (1) これまで,学習アルゴリズムとして高速なPegasos を用いていたが,ミニバッチ法をDual Coordinate Ascent SVM (DCASVM) に導入したアルゴリズムを考案し,実装したこと. (2) 予測性能の向上のため,大域的枝刈りの基準として Accumulative Clipped Classification Score (ACCS) を考案し,適用したこと.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
26 年度は,Wikipedia Large データを対象に学習・分類手法を改良する計画としていた.計画通り,25 年度に高速化された手法を実際にWikipedia Largeデータにおいて評価し,パラメータのチューニングを行った.Wikipedia Largeデータは,カテゴリーの階層構造が「一般のグラフ構造」であり木構造やDAGと比べて計算量が大幅に増加する.単純に従来の機械学習手法を用いると,メモリ不足のために扱えなかったり,学習に1ヶ月以上必要となる.そこで,今年度の研究では,学習データを階層構造にメモリ効率よく伝播する方法を考案するとともに,Pegasos を用いた階層的分類システムをC++により実装したシステムをWikipedia Largeデータに適用した.その結果,学習時間を50時間,分類時間を4.4時間にすることに成功した.また,テストデータに対する予測性能は accuracy=0.3185,MicroF1=0.3644を達成した.特に MicroF1スコアは,既存の同データを用いた他システムと比較して,最も高いスコアであったことから,本研究は計画通り順調に進捗していると考える. さらに、下記の改良により、計画時の予想を超えて、並列処理に頼ることなく、予測性能を維持したまま Wikipedia Medium データに対する学習時間を従来の数時間から 30分程度に大幅に短縮することに成功した。 (1) これまで、学習アルゴリズムとして高速なPegasos を用いていたが、ミニバッチ法をDual Coordinate Ascent SVM (DCASVM) に導入した学習アルゴリズムを考案し、実装したこと。 (2) 予測性能の向上のため、大域的枝刈りの基準として Accumulative Clipped Classification Score (ACCS) を考案し、適用したこと。 この成果により,Wikipedia Largeデータに対しても,さらに高速な階層的分類学習を実現する基盤技術が整った.
|
今後の研究の推進方策 |
27年度は,Wikipedia Large データにおいて,Medium と同等の性能を実現するための性能向上および実装技術の研究を行う計画であり,大筋ではこれに沿って予定通り研究を進めていく.性能向上に関しては,これまではLSHTC3 オーガナイザが提供した学習・テスト用の数値ベクトルをそのまま用いていたが,2013年から注目されているWord Embedding技術を特徴抽出の一種として文書分類に導入する方法を検討する. Word Embedding とは,大規模の文書データを基に,各単語をその単語が出現する文脈を埋め込んだベクトル(100次元等)で表現することで,数値ベクトルにより単語の意味を表現する方法である.たとえば,kingの単語ベクトルからmanの単語ベクトルを引き,womanの単語ベクトルを加えるとqueenの単語ベクトルになるという興味深い特徴を持つ.研究計画では,Wikipedia の文書データからbigram, trigram等の特徴を抽出することを計画していたが,2013年より,Word Embeddingによる単語のベクトル表現技術の研究が非常に活発に進んでおり,文書分類の性能向上のための特徴としてWord Embeddingによる単語ベクトルを利用することを試みる. また,高速化に関しては,SVMアルゴリズムの並列化やモデルの学習自体の並列化を検討し,実用的な時間で学習を完了するために必要となる並列化手法を適用していく.SVMアルゴリズムの並列化に関しては,DCASVMのミニバッチによる重みベクトルの更新を並列化できるかどうかを検討する.モデルの学習単位の並列化は,一種のデータ並列であり,サーバーのコア数に応じて,モデルの学習を並列化する実装法を検討していく. 本研究課題の実施にあたり開発したC++によるソフトウェアシステム一式を整理し,外部に公開可能なソフトウェアとしてパッケージ化する.パッケージ化されたソフトウェアは,適切なライセンス(たとえばLGPL)に基づき一般に公開する.
|
次年度使用額が生じた理由 |
研究は計画通り順調に進捗しているが,国際会議等での発表の機会がなく,旅費・参加費の支出が遅れている.当初の計画では,ヨーロッパまたはアメリカの有名国際会議での発表のための旅費・参加費として50万円の支出を見込んでいた.本分野で最も注目されている国際会議ACL-2014およびEMNLP-2014に大規模階層的文書分類の成果をまとめた論文を投稿したが,採択率が非常に低い会議のため,残念ながら採録にはいたらなかった.本研究の成果は,自然言語処理の研究コミュニティだけでなく,データマイニングの分野でも興味をもたれているため,研究成果を広く発表することを念頭に,27年度はデータマイニングの国際会議にも積極的に論文を投稿していく.
|
次年度使用額の使用計画 |
最終年度は,これまでの成果を論文として発表していくとともに,大規模階層的分類システムをソフトウェアパッケージとして整備するための必要となる,PCや周辺機器等の購入にも使用していく.
|