2015 Fiscal Year Annual Research Report
Project/Area Number |
15J05599
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 修平 筑波大学, 図書館情報メディア研究科, 特別研究員(DC2)
|
Project Period (FY) |
2015-04-24 – 2017-03-31
|
Keywords | トピックモデル / 教師あり学習 / マルチラベリング / 確率分布推定 / 対応関係構築 |
Outline of Annual Research Achievements |
今年度は、成長型フィルタの核となる技術である階層的推定法について、トピックとラベルの対応関係の構築方法を中心に研究した。トピックとラベルの対応関係は、大量のデータセットからトピックモデルや行列圧縮手法などの教師なし学習によって多数の潜在トピックを抽出する第1段階と、少量のラベル付きデータによってトピックとラベルの関連度を計算し、各ラベルに重要なトピックを結びつける第2段階の2段階の学習によって構築される。これまでの研究では、あらゆるデータに出現する単語が集まったトピックが、複数のラベルに対して重要であると判定され、実際のデータに関連のないラベルを推定する課題1と、ラベルに結びつけるトピックを決定するためにパラメータを設定する課題2があった。 課題1は、Entropy Feedbackという今までの機械学習にはない機構を導入することにより解決した。Entropy Feedbackは、トピックとラベルの関連度の確率分布が、より乱雑な状態であるほど、理想的な対応関係が構築されているという仮説に基づき、現在の対応関係から最も低いエントロピー値を持つラベルとトピックを基準にフィードバック係数を算出し、その値で関連度を計算し直すモデルである。Entropy Feedbackを導入する前と後の階層的推定法のマルチラベル分類タスクの推定性能を比較した結果、導入した方が適合率で大きく向上することを明らかにした。 課題2は、ラベルとトピックの関連度の確率分布における最適な分割点をウェルチのt検定によって検出することにより解決した。本研究では、ラベル毎のトピックの関連度を降順に並べ、関連度が高い集合と低い集合に分割しt値を算出してゆき、t値を最大化する点を検出することにより、最適な分割点を検出することに応用した。いくつかの対応関係構築方法を実装し、推定性能の比較をした結果、ウェルチのt検定を用いた手法が最も良い推定性能を示せることを明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までに取り組んだ、潜在トピックとラベルの対応関係を洗練するためのEntropy Feedbackは、本研究で目標とする、ユーザが定義したラベル空間において細分化したほうがよいラベル、結合したほうがよいラベルセットを高精度に検出することが期待できる。マルチラベリングや確率分布推定では、良い推定性能を得るためには洗練した対応関係を用いるほうが良いことを明らかにしたが、細分化と結合ラベル候補の検出では、算出したエントロピー値に基づき細分化した方が良いラベル、結合した方が良いラベルセットに自動的に分類できると期待できる。 実際にユーザが定義したラベルを未知のデータに対して推定する際に、再現性と適合性のいずれかを重視することはこれまでできていたが、両方を程よく高めた(F値を最大にする)対応関係を得るためには、事前にパラメータをチューニングする必要があった。現在までに、自動的にF値を最大にできる対応関係を得るための最適な対応関係の決定手法を提案し、その効果についても定量的に評価することができている。 以上の研究成果は、本研究で取り組んでいる成長型フィルタの核となる技術であり、それぞれの有効性を定量的な評価から得られている。また、その成果を重要国際会議で査読を経て発表もしており、国内外の研究者から更なる精度向上のための有益なコメントを受けている。このことから、本研究はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
今後の研究計画は、今年度に得られた研究成果と知見を元に、階層的推定法に基づく成長型フィルタの実現をする。これまでの研究で、トピックとラベルの最適な対応関係を構築するための要素技術は完成している。これを元に、ユーザが定義したラベルとトピックの対応関係を構築し、統合候補となるラベルセット、また細分化した方が良いラベルの抽出をする。また、そのラベルの提示が実際にユーザの情報整理を支援できるかを、利用者実験を通じて評価する。 現在は潜在トピックの抽出に潜在的ディリクレ配分法(LDA)を用いているが、他のトピックモデルや次元圧縮手法も加えた評価をし、その差異について利点と欠点の観点から分析をする。トピック数や圧縮次元数を自動的に決定するアルゴリズムも提案されており、これらにより決定したトピック数において提案手法がどのような挙動をするか検証する。 クラウドソーシングなどを通じて実際の評価用データを用意し、ユーザが定義したラベル空間に対し、提案手法が適切に未知のデータを推定できるか定量的に評価する。また、ラベルの細分化や結合を実施し、人手判定によってその妥当性について評価する。 以上を通じて得られた研究成果は、国内外の論文誌や国際会議で報告することにより、他の研究者から有益な意見や指摘を受けられる機会を積極的に設ける。
|
Research Products
(6 results)