• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Annual Research Report

Web情報を対象とした数十万人規模での著者推定

Research Project

Project/Area Number 25280113
Research InstitutionWaseda University

Principal Investigator

山名 早人  早稲田大学, 理工学術院, 教授 (40230502)

Project Period (FY) 2013-04-01 – 2016-03-31
Keywords信憑性 / インターネットの安全性 / 著者推定 / SNS / tweet
Outline of Annual Research Achievements

平成25年度までの研究により、インターネット上の情報(Tweet)を対象とした著者推定を行い、約5000人に対する著者推定実験を行い約70%の精度で著者を一意に推定できることを確認した。平成26年度は、前年の研究成果を踏まえ、数万人規模での著者推定の実現、特徴量の多様化、多言語への適用検討を目標とした。

結果、平成26年度は、約10万人での著者推定を精度約60%で行うことに成功し、当初の目標(1万人)を上回る成果を得た。この10万人という大規模データへの適用にあたっては、著者推定に用いる特徴量を見直し、tweetに登場する連続する記号の扱いを効率よく行う方法を提案した。さらに、複数の話題に対しても高精度を実現するために、(1)特徴量として一人のユーザに対して複数期間の特徴量を収集し用いることと、(2)特徴量にバイアスを付与する(他人との差別化において有効な特徴量に大きな重みを付与)という新しい手法の研究開発を行った。これにより、10万人規模でも精度を大きく下げることなく(5000人で精度約70%に対し10万人で精度約60%)著者推定の実現に成功した。さらに、当初の計画には無かったが、10万人のデータを扱う上で、実行時間が大きな問題となることから「高速化を実現する手法」についての研究を進めた。その結果、n-gramではなく形態素を単位としたn-gramを利用することで若干の精度低下(約7%)があるものの約2倍の高速化を実現した。これにより、現実的な時間内(10万人を対象とした場合も約100分)での実現を可能とした。また、英語への拡張についても検討を進め、概ね同様の手法で適用できることを確認している。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

当初計画では1万人レベルでの著者推定実現であったが、平成26年度中に10万人レベルでの著者推定を実現した(精度約60%)。さらに、高速化手法についての研究を行い高速化を実現できた。

Strategy for Future Research Activity

当初の計画通り10万人レベルでの著者推定自体の実現を達成したことから、今後は精度を向上させる手法について、SNS固有の特徴量(例えばユーザ間のつながり)を踏まえた手法について発展的な研究を目指す。

Causes of Carryover

当初計画に加えて、著者推定手法に対して効率的な手法を平成26年度に進めることができ、導入した解析用サーバの規模を小さくできたため。

Expenditure Plan for Carryover Budget

平成27年度は、当初予定のサーバやディスク購入だけではなく、繰り越し分を人件費にあてることで加速度的に研究を進める。

  • Research Products

    (7 results)

All 2015 2014

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (5 results)

  • [Journal Article] Cross-lingual Investigation of User Evaluations for Global Restaurants2015

    • Author(s)
      Le Jiawen,Yamana Hayato
    • Journal Title

      DBSJ Journal

      Volume: 13 Pages: 37-42

    • Peer Reviewed / Open Access
  • [Journal Article] メンション情報を利用したTwitterユーザプロフィール推定2014

    • Author(s)
      奥谷貴志,山名早人
    • Journal Title

      DBSJ Journal

      Volume: 13-J Pages: 1-6

    • Peer Reviewed / Open Access
  • [Presentation] マイクロブログを対象とした100,000人レベルでの著者推定手法の提案2015

    • Author(s)
      奥野峻弥,浅井洋樹,山名早人
    • Organizer
      DEIM2015, No.D8-1
    • Place of Presentation
      郡山(福島県)
    • Year and Date
      2015-03-02 – 2015-03-04
  • [Presentation] マイクロブログにおける単語間の依存性を考慮した語義曖昧性解消2015

    • Author(s)
      篠原正太,上里和也, 山名早人
    • Organizer
      DEIM2015, No.G8-4
    • Place of Presentation
      郡山(福島県)
    • Year and Date
      2015-03-02 – 2015-03-04
  • [Presentation] A Challenge of Authorship Identification for Ten-thousand-scale Microblog Users2014

    • Author(s)
      Syunya Okuno, Hiroki Asai, and Hayato Yamana
    • Organizer
      Proc. of IEEE BigData 2014
    • Place of Presentation
      ワシントンD.C.(米国)
    • Year and Date
      2014-10-27 – 2014-10-30
  • [Presentation] Cross-cultural Investigations of User Evaluations for Multiple Domains: Using Twitter Data2014

    • Author(s)
      Le Jiawen,Yamana Hayato
    • Organizer
      Proc. of Shanghai International Conference on Social Science
    • Place of Presentation
      上海(中国)
    • Year and Date
      2014-09-13 – 2014-09-15
  • [Presentation] マイクロブログを対象とした著者推定手法の提案-10,000人レベルでの著者推定-2014

    • Author(s)
      奥野 峻弥,浅井 洋樹,山名 早人
    • Organizer
      情処研報, Vol.2014-DBS-159(12)
    • Place of Presentation
      九大(福岡県)
    • Year and Date
      2014-08-01 – 2014-08-02

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi