• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実施状況報告書

100億Webページ収集に基づくWebコンテンツの信頼性解析

研究課題

研究課題/領域番号 17KT0085
研究機関早稲田大学

研究代表者

山名 早人  早稲田大学, 理工学術院, 教授 (40230502)

研究期間 (年度) 2017-07-18 – 2021-03-31
キーワードWebコンテンツ / 信憑性 / 信頼性 / フィッシング / 検索エンジン / Webクローラ
研究実績の概要

本研究では,日々の暮らしに必要不可欠な存在となったWebコンテンツについて,その信頼性を示す指標を考案し,コンテンツに対する信頼性を示すことで,安心してWebを利用できる環境を提供することに資する基盤研究を実施することを目指している.
2年目である平成30年度は、(1)Webコンテンツ収集のためのクローラの機能拡張、(2)コンテンツ解析手法、(3)URLのみによる判定手法に取り組んだ。
Webコンテンツ収集を行うクローラの機能拡張においては、特定の内容を持つWebページを効率よく収集するための手法として(a)収集済のWebページのカテゴリ分類から今後収集を行うWebページのカテゴリを推定し、収集優先順位を計算する方法、(b)特徴量として収集済Webページのカテゴリ分類を用いる手法を提案した。これらによりBest-Firstクローラに比較し約10%のHarvest Rate向上を実現した。コンテンツ解析手法においては、「信憑性や信頼性が低いWebページは主に収益を目的としている点」に着目し、オンライン広告とコンテンツのWebページ内での配置から信憑性を判定する手法を考案した。これにより、正解率を3%程度向上させることができることを確認した(71.1%から74.5%への改善)。さらに、引用を伴うWebページ(例:各種会議発言の引用)では、正しく引用が行われているのかを検証するツール構築を行った。
また、今年度から「多くのWebコンテンツは、ブラウザにダウンロードした時点でマルウェア感染等を引き起こしたり、実際にはJavaScriptを実行しなければコンテンツが得られないようなWebページが増加していること」を踏まえ、コンテンツに頼らない信頼性判定の仕組みについても検討を開始した。本手法は、URLの文字列に含まれる情報のみを用いて当該Webページの信頼性を判定する手法である。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

昨今のWebサーバ運用状況から、高速なWebページ収集がDDoS攻撃の一種として見なされることがあり、高速な収集が困難となり、現時点で1億ページの収集に留まっているものの、解析手法については、様々な見地からの手法を検討できたことによる。

今後の研究の推進方策

研究題目にある100億のWebページに囚われることなく、本研究が目指している「信頼性、信憑性の判定」に主眼を置き、実際のサービスに応用可能な形での基盤研究を進めていく。具体的には、サービスとしての応用が容易な「URLのみを用いた判定手法」に注力すると共に、関連研究拠点との連携を積極的にとることを予定する。また、収集したWebページをもとにベンチマークの構築を行うことは最終年度までの目標として、その具体化を考えていく。

次年度使用額が生じた理由

予定していた海外連携機関との研究会合が実施できなかったことによる。繰越金については、次年度海外連携機関との研究打ち合わせ等で利用する予定である。

  • 研究成果

    (7件)

すべて 2019 2018 その他

すべて 国際共同研究 (1件) 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件) 学会発表 (4件)

  • [国際共同研究] カセサート大学(タイ)

    • 国名
      タイ
    • 外国機関名
      カセサート大学
  • [雑誌論文] Efficient Topical Focused Crawling Through Neighborhood Feature2018

    • 著者名/発表者名
      Tanaphol Suebchua, Bundit Manaskasemsak, Arnon Rungsawang, Hayato Yamana
    • 雑誌名

      New Generation Computing

      巻: 36-2 ページ: 95-118

    • DOI

      10.1007/s00354-017-0029-8

    • 査読あり / 国際共著
  • [雑誌論文] External Content-dependent Features for Web Credibility Evaluation2018

    • 著者名/発表者名
      Kazuyoshi Ootani and Hayato Yamana
    • 雑誌名

      Proc. of IEEE BigData 2018

      巻: 1 ページ: 5314-5416

    • DOI

      10.1109/BigData.2018.8622398

    • 査読あり
  • [学会発表] 日本語の文章を対象にした執筆者数推定2019

    • 著者名/発表者名
      塩浦尚久, 山名早人
    • 学会等名
      DEIM2019 第11回データ工学と情報マネジメントに関するフォーラム
  • [学会発表] 新聞記事における発言引用部分の特定手法および引用方法の分類手法の提案 -ファクトチェック支援への応用-2019

    • 著者名/発表者名
      山田健太, 真鍋智紀, 山名早人
    • 学会等名
      DEIM2019 第11回データ工学と情報マネジメントに関するフォーラム
  • [学会発表] Enhancing Focused Crawler through Genre Detection,2019

    • 著者名/発表者名
      Qian Jiayi, Tanaphol Suebchua, Hayato Yamana
    • 学会等名
      DEIM2019 第11回データ工学と情報マネジメントに関するフォーラム
  • [学会発表] A Survey of URL-based Phishing Detection2019

    • 著者名/発表者名
      Eint Sandi Aung, Chaw Thet Zan, Hayato Yamana
    • 学会等名
      DEIM2019 第11回データ工学と情報マネジメントに関するフォーラム

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi