2015 年度実績報告書

情報整理を支援する成長型フィルタの能動学習手法

研究課題

研究課題/領域番号	15J05599
研究機関	筑波大学
研究代表者	山本修平筑波大学, 図書館情報メディア研究科, 特別研究員(DC2)
研究期間 (年度)	2015-04-24 – 2017-03-31
キーワード	トピックモデル / 教師あり学習 / マルチラベリング / 確率分布推定 / 対応関係構築
研究実績の概要	今年度は、成長型フィルタの核となる技術である階層的推定法について、トピックとラベルの対応関係の構築方法を中心に研究した。トピックとラベルの対応関係は、大量のデータセットからトピックモデルや行列圧縮手法などの教師なし学習によって多数の潜在トピックを抽出する第1段階と、少量のラベル付きデータによってトピックとラベルの関連度を計算し、各ラベルに重要なトピックを結びつける第2段階の2段階の学習によって構築される。これまでの研究では、あらゆるデータに出現する単語が集まったトピックが、複数のラベルに対して重要であると判定され、実際のデータに関連のないラベルを推定する課題1と、ラベルに結びつけるトピックを決定するためにパラメータを設定する課題2があった。課題1は、Entropy Feedbackという今までの機械学習にはない機構を導入することにより解決した。Entropy Feedbackは、トピックとラベルの関連度の確率分布が、より乱雑な状態であるほど、理想的な対応関係が構築されているという仮説に基づき、現在の対応関係から最も低いエントロピー値を持つラベルとトピックを基準にフィードバック係数を算出し、その値で関連度を計算し直すモデルである。Entropy Feedbackを導入する前と後の階層的推定法のマルチラベル分類タスクの推定性能を比較した結果、導入した方が適合率で大きく向上することを明らかにした。課題2は、ラベルとトピックの関連度の確率分布における最適な分割点をウェルチのt検定によって検出することにより解決した。本研究では、ラベル毎のトピックの関連度を降順に並べ、関連度が高い集合と低い集合に分割しt値を算出してゆき、t値を最大化する点を検出することにより、最適な分割点を検出することに応用した。いくつかの対応関係構築方法を実装し、推定性能の比較をした結果、ウェルチのt検定を用いた手法が最も良い推定性能を示せることを明らかにした。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由現在までに取り組んだ、潜在トピックとラベルの対応関係を洗練するためのEntropy Feedbackは、本研究で目標とする、ユーザが定義したラベル空間において細分化したほうがよいラベル、結合したほうがよいラベルセットを高精度に検出することが期待できる。マルチラベリングや確率分布推定では、良い推定性能を得るためには洗練した対応関係を用いるほうが良いことを明らかにしたが、細分化と結合ラベル候補の検出では、算出したエントロピー値に基づき細分化した方が良いラベル、結合した方が良いラベルセットに自動的に分類できると期待できる。実際にユーザが定義したラベルを未知のデータに対して推定する際に、再現性と適合性のいずれかを重視することはこれまでできていたが、両方を程よく高めた（F値を最大にする）対応関係を得るためには、事前にパラメータをチューニングする必要があった。現在までに、自動的にF値を最大にできる対応関係を得るための最適な対応関係の決定手法を提案し、その効果についても定量的に評価することができている。以上の研究成果は、本研究で取り組んでいる成長型フィルタの核となる技術であり、それぞれの有効性を定量的な評価から得られている。また、その成果を重要国際会議で査読を経て発表もしており、国内外の研究者から更なる精度向上のための有益なコメントを受けている。このことから、本研究はおおむね順調に進展していると言える。
今後の研究の推進方策	今後の研究計画は、今年度に得られた研究成果と知見を元に、階層的推定法に基づく成長型フィルタの実現をする。これまでの研究で、トピックとラベルの最適な対応関係を構築するための要素技術は完成している。これを元に、ユーザが定義したラベルとトピックの対応関係を構築し、統合候補となるラベルセット、また細分化した方が良いラベルの抽出をする。また、そのラベルの提示が実際にユーザの情報整理を支援できるかを、利用者実験を通じて評価する。現在は潜在トピックの抽出に潜在的ディリクレ配分法（LDA）を用いているが、他のトピックモデルや次元圧縮手法も加えた評価をし、その差異について利点と欠点の観点から分析をする。トピック数や圧縮次元数を自動的に決定するアルゴリズムも提案されており、これらにより決定したトピック数において提案手法がどのような挙動をするか検証する。クラウドソーシングなどを通じて実際の評価用データを用意し、ユーザが定義したラベル空間に対し、提案手法が適切に未知のデータを推定できるか定量的に評価する。また、ラベルの細分化や結合を実施し、人手判定によってその妥当性について評価する。以上を通じて得られた研究成果は、国内外の論文誌や国際会議で報告することにより、他の研究者から有益な意見や指摘を受けられる機会を積極的に設ける。

研究成果
(6件)

すべて 2016 2015

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (5件) (うち国際学会 3件)

[雑誌論文] 実生活ツイートに対する局面推定の精度向上に関する検討2015
- 著者名/発表者名
  山本修平, 佐藤哲司
- 雑誌名
  
  情報処理学会論文誌（ジャーナル）
  
  巻: 56.6 ページ: 1496-1506
- 査読あり / オープンアクセス
[学会発表] コミュニケーション活動から見たTwitterユーザ間の関係性遷移2016
- 著者名/発表者名
  山本修平, 神門典子, 佐藤哲司
- 学会等名
  第7回データ工学と情報マネジメントに関するフォーラム, DEIM2015
- 発表場所
  ヒルトン福岡シーホーク（福岡県福岡市）
- 年月日
  2016-02-29 – 2016-03-02
[学会発表] BUTE: Bursty Users Tagging Method Estimated by Time Series Data2015
- 著者名/発表者名
  Shuhei Yamamoto, Kei Wakabayashi, Noriko Kando, and Tetsuji Satoh
- 学会等名
  The 17th Int’l Conf. on Information Integration and Web-based Applications & Services
- 発表場所
  ブリュッセル（ベルギー）
- 年月日
  2015-12-11 – 2015-12-13
- 国際学会
[学会発表] LAIM: Life Aspect Inference Method based on Probability Distribution for Real Life Tweets2015
- 著者名/発表者名
  Shuhei Yamamoto, Noriko Kando, and Tetsuji Satoh
- 学会等名
  2015 IEEE/WIC/ACM International Conference on Web Intelligence
- 発表場所
  シンガポール（シンガポール）
- 年月日
  2015-12-06 – 2015-12-09
- 国際学会
[学会発表] バースト時刻に基づくユーザのタグ付け手法の提案2015
- 著者名/発表者名
  山本修平, 若林啓, 神門典子, 佐藤哲司
- 学会等名
  情報処理学会マルチメディア，分散，協調とモバイル(DICOMO2015)シンポジウム
- 発表場所
  ホテル安比グランド（岩手県八幡平市）
- 年月日
  2015-07-08 – 2015-07-10
[学会発表] Hierarchical Estimation Framework of Multi-Label Classifying: A Case of Tweets Classifying into Real Life Aspects2015
- 著者名/発表者名
  Shuhei Yamamoto and Tetsuji Satoh
- 学会等名
  The 9th Int’l AAAI Conf. of Web and Social Media
- 発表場所
  オックスフォード（イギリス）
- 年月日
  2015-05-26 – 2015-05-29
- 国際学会

2015 年度 実績報告書

情報整理を支援する成長型フィルタの能動学習手法

研究代表者

山本 修平 筑波大学, 図書館情報メディア研究科, 特別研究員(DC2)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 実生活ツイートに対する局面推定の精度向上に関する検討2015

著者名/発表者名

雑誌名

[学会発表] コミュニケーション活動から見たTwitterユーザ間の関係性遷移2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] BUTE: Bursty Users Tagging Method Estimated by Time Series Data2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] LAIM: Life Aspect Inference Method based on Probability Distribution for Real Life Tweets2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] バースト時刻に基づくユーザのタグ付け手法の提案2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Hierarchical Estimation Framework of Multi-Label Classifying: A Case of Tweets Classifying into Real Life Aspects2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実績報告書

山本修平筑波大学, 図書館情報メディア研究科, 特別研究員(DC2)