• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実施状況報告書

100億Webページ収集に基づくWebコンテンツの信頼性解析

研究課題

研究課題/領域番号 17KT0085
研究機関早稲田大学

研究代表者

山名 早人  早稲田大学, 理工学術院, 教授 (40230502)

研究期間 (年度) 2017-07-18 – 2021-03-31
キーワードWebコンテンツ / 信憑性 / 信頼性 / フィッシング / 検索エンジン
研究実績の概要

本研究「100億Webページ収集に基づくWebコンテンツの信頼性解析」では,日々の暮らしに必要不可欠な存在となったWebコンテンツについて,その信頼性を示す指標を考案し,コンテンツに対する信頼性を示すと共に,コンテンツへの入口となる商用検索エンジンなどの信頼性を明らかにすることで,安心してWebを利用できる環境を提供することに資することを目指している.

初年度である平成29年度は、Webコンテンツ解析のための手法検討と、Webコンテンツ収集用プログラムの作成を中心に研究開発を進めた。まず、Webコンテンツ解析のための手法に関しては、従来の解析手法に無い手法として時系列でのコンテンツ変化を捉えるために、「A Variable-Length Motifs Discovery Method in Time Series using Hybrid Approach」法を提案した。これは、時系列データを文字情報にマッピングすることで解析のための計算量を抑え、さらに似た時系列を持つデータを抽出するための特徴的パターン(Motifs)を抽出する手法である。さらに、Webコンテンツを分類するための手法として、「単語重要度CrRv」を提案し、著者専門性推定のフィジビリティースタディを行った。本手法は、最近信憑性が問題となっているSNSのように短い文章にも対応できる点に特徴がある。さらに、Webコンテンツを効率的に収集するための手法として、「History-enhanced Focused Website Segment Crawler」を提案した。具体的には、Webページ収集中の挙動(ページ収集効率の変化)を特徴量として採用し、収集対象となるWebコンテンツに収集優先度を付与する方法である。これにより、ある話題に関したWebページを収集する場合に10%効率化することに成功した(従来手法比)。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

当初予定していたベンチマーク素案の検討については、現時点では完了していないものの、信頼性解析のための基盤となる各種技術について研究開発を行うことができたことによる。

今後の研究の推進方策

今後は、平成29年度後半と平成30年度前半に導入するWebコンテンツ収集のためのコンピュータサーバ群を動作させ、いくつかの分野を対象にWebコンテンツの収集を開始する。並行して、平成30年度中には、信頼性指標のコアとなる考え方について提案を行っていく。現在の予定では、「Webコンテンツの外部依存度」を様々な指標から計算し、信頼性判定のための特徴量として用いることを想定している。

さらに、最終年度までに、信頼性を判断するためのベンチマークの構築、100億Webページに対する信頼度評価、Webコンテンツと検索エンジンの信頼度評価と信頼性評価尺度を提案し、国際的に発信していくことを想定している。

次年度使用額が生じた理由

採択決定が7月、研究推進に必須となるサーバの導入が年末まで伸び、Webページ収集開始が遅くなった。これにより、研究補助者の雇用(収集及び解析サポートを想定していた)に至らず、繰越が生じている。繰越となった約61万円は次年度において、Webデータ収集・解析を補助する人件費として利用する予定である。

  • 研究成果

    (4件)

すべて 2018 2017

すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件) 学会発表 (2件)

  • [雑誌論文] History-enhanced Focused Website Segment Crawler2018

    • 著者名/発表者名
      Tanaphol Suebchua, Bundit Manaskasemsak, Arnon Rungsawang, Hayato YAMANA
    • 雑誌名

      Proc. of IEEE the 32nd International Conference on Information Networking

      巻: - ページ: 80-85

    • DOI

      10.1109/ICOIN.2018.8343090

    • 査読あり / 国際共著
  • [雑誌論文] A Variable-Length Motifs Discovery Method in Time Series using Hybrid Approach2017

    • 著者名/発表者名
      Chaw Zan, Hayato YAMANA
    • 雑誌名

      Proc. of the 19th International Conference on Information Integration and Web-based Applications & Services

      巻: - ページ: 49-57

    • DOI

      10.1145/3151759.3151781

    • 査読あり
  • [学会発表] 特定分野における単語重要度CrRvの提案と和英短文を対象とした著者専門性推定への応用2018

    • 著者名/発表者名
      滝川 真弘, 山名 早人
    • 学会等名
      第10回データ工学と情報マネジメントに関するフォーラム
  • [学会発表] 特定分野における単語重要度計算手法の提案と短い文章における著者の専門性推定への適応2017

    • 著者名/発表者名
      滝川 真弘, 山名 早人
    • 学会等名
      第233回自然言語処理研究会(情報処理学会)

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi