2015 Fiscal Year Annual Research Report

情報整理を支援する成長型フィルタの能動学習手法

Research Project

Project/Area Number	15J05599
Research Institution	University of Tsukuba
Principal Investigator	山本修平筑波大学, 図書館情報メディア研究科, 特別研究員(DC2)
Project Period (FY)	2015-04-24 – 2017-03-31
Keywords	トピックモデル / 教師あり学習 / マルチラベリング / 確率分布推定 / 対応関係構築
Outline of Annual Research Achievements	今年度は、成長型フィルタの核となる技術である階層的推定法について、トピックとラベルの対応関係の構築方法を中心に研究した。トピックとラベルの対応関係は、大量のデータセットからトピックモデルや行列圧縮手法などの教師なし学習によって多数の潜在トピックを抽出する第1段階と、少量のラベル付きデータによってトピックとラベルの関連度を計算し、各ラベルに重要なトピックを結びつける第2段階の2段階の学習によって構築される。これまでの研究では、あらゆるデータに出現する単語が集まったトピックが、複数のラベルに対して重要であると判定され、実際のデータに関連のないラベルを推定する課題1と、ラベルに結びつけるトピックを決定するためにパラメータを設定する課題2があった。課題1は、Entropy Feedbackという今までの機械学習にはない機構を導入することにより解決した。Entropy Feedbackは、トピックとラベルの関連度の確率分布が、より乱雑な状態であるほど、理想的な対応関係が構築されているという仮説に基づき、現在の対応関係から最も低いエントロピー値を持つラベルとトピックを基準にフィードバック係数を算出し、その値で関連度を計算し直すモデルである。Entropy Feedbackを導入する前と後の階層的推定法のマルチラベル分類タスクの推定性能を比較した結果、導入した方が適合率で大きく向上することを明らかにした。課題2は、ラベルとトピックの関連度の確率分布における最適な分割点をウェルチのt検定によって検出することにより解決した。本研究では、ラベル毎のトピックの関連度を降順に並べ、関連度が高い集合と低い集合に分割しt値を算出してゆき、t値を最大化する点を検出することにより、最適な分割点を検出することに応用した。いくつかの対応関係構築方法を実装し、推定性能の比較をした結果、ウェルチのt検定を用いた手法が最も良い推定性能を示せることを明らかにした。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 現在までに取り組んだ、潜在トピックとラベルの対応関係を洗練するためのEntropy Feedbackは、本研究で目標とする、ユーザが定義したラベル空間において細分化したほうがよいラベル、結合したほうがよいラベルセットを高精度に検出することが期待できる。マルチラベリングや確率分布推定では、良い推定性能を得るためには洗練した対応関係を用いるほうが良いことを明らかにしたが、細分化と結合ラベル候補の検出では、算出したエントロピー値に基づき細分化した方が良いラベル、結合した方が良いラベルセットに自動的に分類できると期待できる。実際にユーザが定義したラベルを未知のデータに対して推定する際に、再現性と適合性のいずれかを重視することはこれまでできていたが、両方を程よく高めた（F値を最大にする）対応関係を得るためには、事前にパラメータをチューニングする必要があった。現在までに、自動的にF値を最大にできる対応関係を得るための最適な対応関係の決定手法を提案し、その効果についても定量的に評価することができている。以上の研究成果は、本研究で取り組んでいる成長型フィルタの核となる技術であり、それぞれの有効性を定量的な評価から得られている。また、その成果を重要国際会議で査読を経て発表もしており、国内外の研究者から更なる精度向上のための有益なコメントを受けている。このことから、本研究はおおむね順調に進展していると言える。
Strategy for Future Research Activity	今後の研究計画は、今年度に得られた研究成果と知見を元に、階層的推定法に基づく成長型フィルタの実現をする。これまでの研究で、トピックとラベルの最適な対応関係を構築するための要素技術は完成している。これを元に、ユーザが定義したラベルとトピックの対応関係を構築し、統合候補となるラベルセット、また細分化した方が良いラベルの抽出をする。また、そのラベルの提示が実際にユーザの情報整理を支援できるかを、利用者実験を通じて評価する。現在は潜在トピックの抽出に潜在的ディリクレ配分法（LDA）を用いているが、他のトピックモデルや次元圧縮手法も加えた評価をし、その差異について利点と欠点の観点から分析をする。トピック数や圧縮次元数を自動的に決定するアルゴリズムも提案されており、これらにより決定したトピック数において提案手法がどのような挙動をするか検証する。クラウドソーシングなどを通じて実際の評価用データを用意し、ユーザが定義したラベル空間に対し、提案手法が適切に未知のデータを推定できるか定量的に評価する。また、ラベルの細分化や結合を実施し、人手判定によってその妥当性について評価する。以上を通じて得られた研究成果は、国内外の論文誌や国際会議で報告することにより、他の研究者から有益な意見や指摘を受けられる機会を積極的に設ける。

Research Products
(6 results)

All 2016 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 3 results)

[Journal Article] 実生活ツイートに対する局面推定の精度向上に関する検討2015
- Author(s)
  山本修平, 佐藤哲司
- Journal Title
  
  情報処理学会論文誌（ジャーナル）
  
  Volume: 56.6 Pages: 1496-1506
- Peer Reviewed / Open Access
[Presentation] コミュニケーション活動から見たTwitterユーザ間の関係性遷移2016
- Author(s)
  山本修平, 神門典子, 佐藤哲司
- Organizer
  第7回データ工学と情報マネジメントに関するフォーラム, DEIM2015
- Place of Presentation
  ヒルトン福岡シーホーク（福岡県福岡市）
- Year and Date
  2016-02-29 – 2016-03-02
[Presentation] BUTE: Bursty Users Tagging Method Estimated by Time Series Data2015
- Author(s)
  Shuhei Yamamoto, Kei Wakabayashi, Noriko Kando, and Tetsuji Satoh
- Organizer
  The 17th Int’l Conf. on Information Integration and Web-based Applications & Services
- Place of Presentation
  ブリュッセル（ベルギー）
- Year and Date
  2015-12-11 – 2015-12-13
- Int'l Joint Research
[Presentation] LAIM: Life Aspect Inference Method based on Probability Distribution for Real Life Tweets2015
- Author(s)
  Shuhei Yamamoto, Noriko Kando, and Tetsuji Satoh
- Organizer
  2015 IEEE/WIC/ACM International Conference on Web Intelligence
- Place of Presentation
  シンガポール（シンガポール）
- Year and Date
  2015-12-06 – 2015-12-09
- Int'l Joint Research
[Presentation] バースト時刻に基づくユーザのタグ付け手法の提案2015
- Author(s)
  山本修平, 若林啓, 神門典子, 佐藤哲司
- Organizer
  情報処理学会マルチメディア，分散，協調とモバイル(DICOMO2015)シンポジウム
- Place of Presentation
  ホテル安比グランド（岩手県八幡平市）
- Year and Date
  2015-07-08 – 2015-07-10
[Presentation] Hierarchical Estimation Framework of Multi-Label Classifying: A Case of Tweets Classifying into Real Life Aspects2015
- Author(s)
  Shuhei Yamamoto and Tetsuji Satoh
- Organizer
  The 9th Int’l AAAI Conf. of Web and Social Media
- Place of Presentation
  オックスフォード（イギリス）
- Year and Date
  2015-05-26 – 2015-05-29
- Int'l Joint Research

2015 Fiscal Year Annual Research Report

情報整理を支援する成長型フィルタの能動学習手法

Principal Investigator

山本 修平 筑波大学, 図書館情報メディア研究科, 特別研究員(DC2)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 実生活ツイートに対する局面推定の精度向上に関する検討2015

Author(s)

Journal Title

[Presentation] コミュニケーション活動から見たTwitterユーザ間の関係性遷移2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] BUTE: Bursty Users Tagging Method Estimated by Time Series Data2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] LAIM: Life Aspect Inference Method based on Probability Distribution for Real Life Tweets2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] バースト時刻に基づくユーザのタグ付け手法の提案2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Hierarchical Estimation Framework of Multi-Label Classifying: A Case of Tweets Classifying into Real Life Aspects2015

Author(s)

Organizer

Place of Presentation

Year and Date

山本修平筑波大学, 図書館情報メディア研究科, 特別研究員(DC2)