研究課題/領域番号 |
17KT0085
|
研究機関 | 早稲田大学 |
研究代表者 |
山名 早人 早稲田大学, 理工学術院, 教授 (40230502)
|
研究期間 (年度) |
2017-07-18 – 2021-03-31
|
キーワード | Webコンテンツ / 信憑性 / 信頼性 / フィッシング / 検索エンジン / Webクローラ |
研究実績の概要 |
本研究では,日々の暮らしに必要不可欠な存在となったWebコンテンツについて,その信頼性を示す指標を考案し,コンテンツに対する信頼性を示すことで,安心してWebを利用できる環境を提供することに資する基盤研究を実施することを目指している. 2年目である平成30年度は、(1)Webコンテンツ収集のためのクローラの機能拡張、(2)コンテンツ解析手法、(3)URLのみによる判定手法に取り組んだ。 Webコンテンツ収集を行うクローラの機能拡張においては、特定の内容を持つWebページを効率よく収集するための手法として(a)収集済のWebページのカテゴリ分類から今後収集を行うWebページのカテゴリを推定し、収集優先順位を計算する方法、(b)特徴量として収集済Webページのカテゴリ分類を用いる手法を提案した。これらによりBest-Firstクローラに比較し約10%のHarvest Rate向上を実現した。コンテンツ解析手法においては、「信憑性や信頼性が低いWebページは主に収益を目的としている点」に着目し、オンライン広告とコンテンツのWebページ内での配置から信憑性を判定する手法を考案した。これにより、正解率を3%程度向上させることができることを確認した(71.1%から74.5%への改善)。さらに、引用を伴うWebページ(例:各種会議発言の引用)では、正しく引用が行われているのかを検証するツール構築を行った。 また、今年度から「多くのWebコンテンツは、ブラウザにダウンロードした時点でマルウェア感染等を引き起こしたり、実際にはJavaScriptを実行しなければコンテンツが得られないようなWebページが増加していること」を踏まえ、コンテンツに頼らない信頼性判定の仕組みについても検討を開始した。本手法は、URLの文字列に含まれる情報のみを用いて当該Webページの信頼性を判定する手法である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨今のWebサーバ運用状況から、高速なWebページ収集がDDoS攻撃の一種として見なされることがあり、高速な収集が困難となり、現時点で1億ページの収集に留まっているものの、解析手法については、様々な見地からの手法を検討できたことによる。
|
今後の研究の推進方策 |
研究題目にある100億のWebページに囚われることなく、本研究が目指している「信頼性、信憑性の判定」に主眼を置き、実際のサービスに応用可能な形での基盤研究を進めていく。具体的には、サービスとしての応用が容易な「URLのみを用いた判定手法」に注力すると共に、関連研究拠点との連携を積極的にとることを予定する。また、収集したWebページをもとにベンチマークの構築を行うことは最終年度までの目標として、その具体化を考えていく。
|
次年度使用額が生じた理由 |
予定していた海外連携機関との研究会合が実施できなかったことによる。繰越金については、次年度海外連携機関との研究打ち合わせ等で利用する予定である。
|