• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実績報告書

Web情報を対象とした数十万人規模での著者推定

研究課題

研究課題/領域番号 25280113
研究機関早稲田大学

研究代表者

山名 早人  早稲田大学, 理工学術院, 教授 (40230502)

研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード信憑性 / インターネットの安全性 / 著者推定 / SNS / tweet
研究実績の概要

平成25年度までの研究により、インターネット上の情報(Tweet)を対象とした著者推定を行い、約5000人に対する著者推定実験を行い約70%の精度で著者を一意に推定できることを確認した。平成26年度は、前年の研究成果を踏まえ、数万人規模での著者推定の実現、特徴量の多様化、多言語への適用検討を目標とした。

結果、平成26年度は、約10万人での著者推定を精度約60%で行うことに成功し、当初の目標(1万人)を上回る成果を得た。この10万人という大規模データへの適用にあたっては、著者推定に用いる特徴量を見直し、tweetに登場する連続する記号の扱いを効率よく行う方法を提案した。さらに、複数の話題に対しても高精度を実現するために、(1)特徴量として一人のユーザに対して複数期間の特徴量を収集し用いることと、(2)特徴量にバイアスを付与する(他人との差別化において有効な特徴量に大きな重みを付与)という新しい手法の研究開発を行った。これにより、10万人規模でも精度を大きく下げることなく(5000人で精度約70%に対し10万人で精度約60%)著者推定の実現に成功した。さらに、当初の計画には無かったが、10万人のデータを扱う上で、実行時間が大きな問題となることから「高速化を実現する手法」についての研究を進めた。その結果、n-gramではなく形態素を単位としたn-gramを利用することで若干の精度低下(約7%)があるものの約2倍の高速化を実現した。これにより、現実的な時間内(10万人を対象とした場合も約100分)での実現を可能とした。また、英語への拡張についても検討を進め、概ね同様の手法で適用できることを確認している。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

当初計画では1万人レベルでの著者推定実現であったが、平成26年度中に10万人レベルでの著者推定を実現した(精度約60%)。さらに、高速化手法についての研究を行い高速化を実現できた。

今後の研究の推進方策

当初の計画通り10万人レベルでの著者推定自体の実現を達成したことから、今後は精度を向上させる手法について、SNS固有の特徴量(例えばユーザ間のつながり)を踏まえた手法について発展的な研究を目指す。

次年度使用額が生じた理由

当初計画に加えて、著者推定手法に対して効率的な手法を平成26年度に進めることができ、導入した解析用サーバの規模を小さくできたため。

次年度使用額の使用計画

平成27年度は、当初予定のサーバやディスク購入だけではなく、繰り越し分を人件費にあてることで加速度的に研究を進める。

  • 研究成果

    (7件)

すべて 2015 2014

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (5件)

  • [雑誌論文] Cross-lingual Investigation of User Evaluations for Global Restaurants2015

    • 著者名/発表者名
      Le Jiawen,Yamana Hayato
    • 雑誌名

      DBSJ Journal

      巻: 13 ページ: 37-42

    • 査読あり / オープンアクセス
  • [雑誌論文] メンション情報を利用したTwitterユーザプロフィール推定2014

    • 著者名/発表者名
      奥谷貴志,山名早人
    • 雑誌名

      DBSJ Journal

      巻: 13-J ページ: 1-6

    • 査読あり / オープンアクセス
  • [学会発表] マイクロブログを対象とした100,000人レベルでの著者推定手法の提案2015

    • 著者名/発表者名
      奥野峻弥,浅井洋樹,山名早人
    • 学会等名
      DEIM2015, No.D8-1
    • 発表場所
      郡山(福島県)
    • 年月日
      2015-03-02 – 2015-03-04
  • [学会発表] マイクロブログにおける単語間の依存性を考慮した語義曖昧性解消2015

    • 著者名/発表者名
      篠原正太,上里和也, 山名早人
    • 学会等名
      DEIM2015, No.G8-4
    • 発表場所
      郡山(福島県)
    • 年月日
      2015-03-02 – 2015-03-04
  • [学会発表] A Challenge of Authorship Identification for Ten-thousand-scale Microblog Users2014

    • 著者名/発表者名
      Syunya Okuno, Hiroki Asai, and Hayato Yamana
    • 学会等名
      Proc. of IEEE BigData 2014
    • 発表場所
      ワシントンD.C.(米国)
    • 年月日
      2014-10-27 – 2014-10-30
  • [学会発表] Cross-cultural Investigations of User Evaluations for Multiple Domains: Using Twitter Data2014

    • 著者名/発表者名
      Le Jiawen,Yamana Hayato
    • 学会等名
      Proc. of Shanghai International Conference on Social Science
    • 発表場所
      上海(中国)
    • 年月日
      2014-09-13 – 2014-09-15
  • [学会発表] マイクロブログを対象とした著者推定手法の提案-10,000人レベルでの著者推定-2014

    • 著者名/発表者名
      奥野 峻弥,浅井 洋樹,山名 早人
    • 学会等名
      情処研報, Vol.2014-DBS-159(12)
    • 発表場所
      九大(福岡県)
    • 年月日
      2014-08-01 – 2014-08-02

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi