2015 年度実績報告書

Web情報を対象とした数十万人規模での著者推定

研究課題

研究課題/領域番号	25280113
研究機関	早稲田大学
研究代表者	山名早人早稲田大学, 理工学術院, 教授 (40230502)
研究期間 (年度)	2013-04-01 – 2017-03-31
キーワード	著者推定 / インターネットの安全性 / SNS / Tweet / 信憑性
研究実績の概要	インターネット上には様々な情報が氾濫し、その信憑性が社会問題化している。本研究は、「誰がその記事を書いたか」という著者推定を数十万人規模で行うことにより、将来的には、記事の著者を推測し、著者本人の信頼性に帰着させることを目指した。今年度は、昨年度までに達成した10万人規模での著者推定（Twitterユーザを対象）の精度向上（既に約60%達成）を目指すと共に、高速化、応用拡大を目指した。具体的には、ユーザ間の繋がりを利用した著者属性推定を行った。次に、高速化を達成するため、昨年度提案した類似度計算に、前処理としてLSH（局所性鋭敏型ハッシュ）を用いる手法を提案した。最後に、アクティブ認証への応用検討を行った。著者推定精度向上においては、著者自身の属性推定を著者間の繋がり（フォロー、フォロアーの関係、ダイレクトメッセージの関係）を用いて推定する手法を提案した。提案手法はオープンエンドな手法であり、ユーザ間の繋がりをグラフ表現（属性を表す単語の関連度を用いて重み付け）し、Personalized PageRankを適用した。800万人のデータを用いた評価実験では、MAP@30の評価指標で0.8を達成し、十分に精度ある属性推定が実現できることを確認した。高速化においては、LSHにより事前に比較対象ユーザ数を減らす戦略を提案した。絞り込みにより、精度(P@1)を0.025（P@1の場合）落とすことを許せば、約2倍の高速化が可能であることを示した。最後にアクティブ認証への応用を検討した。アクティブ認証はユーザとのインタラクション中に継続的な認証を行う手法である。Twitterを対象に、著者推定手法を応用した結果、評価指標ERR値（エラー率）0.127を達成できた。これは、機械学習を利用する手法よりもエラー率を低くできることを示しており、応用の可能性を示すことができた。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由当初予定していた数十万人規模での著者推定を実現するだけでなく、著者の属性推定による精度向上を実現した。さらに、同提案手法の応用としてアクティブ認証について検討を行うことができた。
今後の研究の推進方策	特に、同提案手法の有効性を、特にセキュリティ面への応用の観点から検討していく。
次年度使用額が生じた理由	当初の研究目標は達成しているものの、研究成果発表の一部が次年度となったことにより、次年度使用額が生じた。
次年度使用額の使用計画	研究成果発表（主にセキュリティ面への応用を予定）に使用する予定である。

研究成果
(8件)

すべて 2016 2015

すべて雑誌論文 (3件) (うち査読あり 3件、謝辞記載あり 2件) 学会発表 (5件)

[雑誌論文] What is your Mother Tongue?: Improving Chinese Native Language Identification by Cleaning Noisy Data and Adopting BM252016
- 著者名/発表者名
  Lan Wang, Masahiro Tanaka, Hayato Yamana
- 雑誌名
  
  Proc. of IEEE Int’l Conf. on Big Data Analysis
  
  巻: 1 ページ: 1 - 5
- 査読あり / 謝辞記載あり
[雑誌論文] Predicting Various Types of User Attributes in Twitter by Using Personalized PageRank2015
- 著者名/発表者名
  Kazuya Uesato, Hiroki Asai, Hayato Yamana
- 雑誌名
  
  Proc. of IEEE Int'l Conf. on BigData 2015
  
  巻: 1 ページ: 2825 - 2827
- DOI
  10.1109/BigData.2015.7364090
- 査読あり / 謝辞記載あり
[雑誌論文] ビッグデータ関連プログラム－米国とEUにおける動向－2015
- 著者名/発表者名
  山名早人
- 雑誌名
  
  情報処理学会誌
  
  巻: 56 ページ: 962 - 967
- 査読あり
[学会発表] Personalized PageRankを利用した網羅的Twitterユーザ属性推定2016
- 著者名/発表者名
  上里和也, 浅井洋樹, 山名早人
- 学会等名
  第8回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  ヒルトン福岡シーフォーク
- 年月日
  2016-02-29 – 2016-03-02
[学会発表] Comparison of Community Detection Methods for Facebook Ego Network2016
- 著者名/発表者名
  何奕萱，上里和也，山名早人
- 学会等名
  第8回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  ヒルトン福岡シーフォーク
- 年月日
  2016-02-29 – 2016-03-02
[学会発表] Twitterアクティブ認証精度向上のための文字N-gram IDFの提案2016
- 著者名/発表者名
  石山雄大, 韓正圭, 山名早人
- 学会等名
  第8回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  ヒルトン福岡シーフォーク
- 年月日
  2016-02-29 – 2016-03-02
[学会発表] Locality-Sensitive Hashingを用いた大規模な著者推定の高速化2016
- 著者名/発表者名
  田中博己，石山雄大，上里和也, 山名早人
- 学会等名
  第8回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  ヒルトン福岡シーフォーク
- 年月日
  2016-02-29 – 2016-03-02
[学会発表] Robust Chinese Native Language Identification with skip-gram2016
- 著者名/発表者名
  Wang Lan，Yamana Hayato
- 学会等名
  第8回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  ヒルトン福岡シーフォーク
- 年月日
  2016-02-29 – 2016-03-02

2015 年度 実績報告書

Web情報を対象とした数十万人規模での著者推定

研究代表者

山名 早人 早稲田大学, 理工学術院, 教授 (40230502)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] What is your Mother Tongue?: Improving Chinese Native Language Identification by Cleaning Noisy Data and Adopting BM252016

著者名/発表者名

雑誌名

[雑誌論文] Predicting Various Types of User Attributes in Twitter by Using Personalized PageRank2015

著者名/発表者名

雑誌名

DOI

[雑誌論文] ビッグデータ関連プログラム－米国とEUにおける動向－2015

著者名/発表者名

雑誌名

[学会発表] Personalized PageRankを利用した網羅的Twitterユーザ属性推定2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Comparison of Community Detection Methods for Facebook Ego Network2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Twitterアクティブ認証精度向上のための文字N-gram IDFの提案2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Locality-Sensitive Hashingを用いた大規模な著者推定の高速化2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Robust Chinese Native Language Identification with skip-gram2016

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実績報告書

山名早人早稲田大学, 理工学術院, 教授 (40230502)