• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

100億Webページ収集に基づくWebコンテンツの信頼性解析

研究課題

研究課題/領域番号 17KT0085
研究機関早稲田大学

研究代表者

山名 早人  早稲田大学, 理工学術院, 教授 (40230502)

研究期間 (年度) 2017-07-18 – 2022-03-31
キーワードWebコンテンツ / 信憑性 / 信頼性 / フィッシング / Webクローラ
研究実績の概要

本研究は、Webコンテンツの信頼性を数値化することで、安心してWebを利用できる環境を提供することを目指している。本年度は、昨年度に引き続き、(1)URLの特徴を用いた信頼度判定手法、(2)人間の第一印象によるWebページ信頼性判定手法、及び、(3)著者人数推定に基づく信頼度判定に取り組んだ。

URLの特徴を用いた信頼度判定では、URLのホスト部とパス部に対して異なる判定手法を適用し精度向上を行った。具体的には、ホスト部ではURLを単語分割した上でLSTMを適用し、パス部については昨年度と同様、文字単位での特徴量を用いた。DMOZ及びPhishTankのデータセットを用いた評価では、96.81%のAUCを達成し、同手法の有効性を確認した。
Webページの第一印象に基づく信頼性判定では、Google Lighthouseが出力する特徴量を用い判定を実現した。Fake News Datasetによる評価では、従来手法を上回る正解率90%を達成した。本研究において収集したWebページを対象として、人による「第一印象」と「熟考した場合」での信頼性判定の差異についても調査を行い、80%のWebページは第一印象による判定により信頼性判定が可能であることを示した。
著者人数推定に基づく信頼度判定では、「コンテンツが複数人の著者により記述されることにより信頼度が向上する」という点に着目し、文章の執筆者数を信頼性の測定指標とすることを目標として研究を推進した。手法改善に取り組み、2人によって記述された文章に対する執筆者数の正解率81.8%、3人の場合74.8%、4人の場合65%を達成した。提案手法では、著者変更点を文章の最初からスライドさせ、当該変更推定点からの距離によって特徴量の重みを指数関数的に変化させ、精度向上を行った。これにより、信頼性判定の一つの指標としての利用可能性を示すことができた。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

Webページの信頼性判定を目標に3手法により信頼度判定を実現してきた。結果として、今年度の精度向上により高い精度を達成できる見込みがたったことによる。

今後の研究の推進方策

本研究が目指している「信頼性、信憑性の判定」に主眼を置き、最終年度に向けてさらなる精度向上に努めると共に、当初計画通り、判定用のデータセット公開を行うことを予定している。また、当該成果の国会会議での発表を予定する。

次年度使用額が生じた理由

COVID-19感染拡大に伴い、本研究計画時に予定していた出張が取り止めとなったこと、外部発表時期がずれたことによる。繰越金については、次年度国際会議発表及び研究補助員費として利用する予定である。

  • 研究成果

    (2件)

すべて 2021

すべて 学会発表 (2件)

  • [学会発表] Phishing URL Detection using Information-rich Domain and Path Features2021

    • 著者名/発表者名
      Eint Sandi Aung, Hayato Yamana
    • 学会等名
      第13回データ工学と情報マネジメントに関するフォーラム(DEIM2021)(日本データベース学会、電子情報通信学会、情報処理学会)
  • [学会発表] 語彙の出現位置と頻度による文体類似度を用いた文章の執筆者数推定2021

    • 著者名/発表者名
      渡邉 充博, Eint Sandi Aung, 山名 早人
    • 学会等名
      第13回データ工学と情報マネジメントに関するフォーラム(DEIM2021)(日本データベース学会、電子情報通信学会、情報処理学会)

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi