2019 Fiscal Year Research-status Report
Credibility Analysis of Web contents based on 10 billion Web pages
Project/Area Number |
17KT0085
|
Research Institution | Waseda University |
Principal Investigator |
山名 早人 早稲田大学, 理工学術院, 教授 (40230502)
|
Project Period (FY) |
2017-07-18 – 2021-03-31
|
Keywords | Webコンテンツ / 信憑性 / 信頼性 / フィッシング |
Outline of Annual Research Achievements |
本研究では,日々の暮らしに必要不可欠な存在となったWebコンテンツについて,その信頼性を示す指標を考案し,コンテンツに対する信頼性を示すことで,安心してWebを利用できる環境を提供することに資する基盤研究を実施することを目指している. 3年目である平成31年度(令和元年度)は、Webページのコンテンツに依存せずに信頼性を判定するための手法として、(1)URLの特徴を用いた信頼度判定手法の精度向上、(2)コンテンツ解析に基づく信頼度判定、(2)著者人数推定に基づく信頼度判定に取り組んだ。 URLの特徴を用いた信頼度判定では、URLに含まれる英数字以外の文字のエントロピーを特徴量として用いることで、96.2%のAUCを達成できることを示した。これは、同提案特徴量を用いない場合に比較して絶対値4.9%の向上となる。 コンテンツ解析に基づく信頼度判定では、自然言語やAPIを利用せず、Google Lighthouseで定義される特徴量を用いることで、F値0.898を達成した。これらの特徴量はWebサーバの性能や各種フォーマットへの適合性等を判断するためのものであるが、信頼性判定に利用できることを示した点は新たな発見である。 最後に著者人数推定に基づくWebページの信頼性判定に取り組んだ。これは、一般的に多くの人が共同して書いた文章の信頼性は高くなるという事実に基づき、コンテンツの著者人数を推定しようとするものである。今年度は、その手法について検討を行った。具体的には、文章をスライディングウィンドウにより分割し、単一ウィンドウは1名の著者で書かれたという前提のもと、前後のスライディングウィンドウとの類似度の変化により著者を推定する。これを実現するにあたり、我々が過去にSNSを対象に行った10万人を対象とした著者推定で明らかになった特徴量を用いている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最終目標である「Webコンテンツの信頼性判定」に対して、「URLからの判定」「コンテンツの内容に依存しない様々な手法」について詳細な方向性を確認でき、その判定精度向上について研究を進めていることによる。
|
Strategy for Future Research Activity |
本研究が目指している「信頼性、信憑性の判定」に主眼を置き、実際のサービスに応用可能な形での基盤研究を進めていく。特にこれまで3年間で明らかにしてきた「様々なWebサイトに対応できる判定手法」を念頭に「URLのみを用いた判定手法」「コンテンツ内容に依存しない判定手法(作成者の人数による判定、Webページの様々な特徴を用いた判定)」に注力すると共に、関連研究拠点との連携を進める。
|
Causes of Carryover |
COVID-19感染拡大に伴い、当初予定していた1-3月の出張が取り止めとなったことによる。繰越金については、次年度海外連携機関との研究打ち合わせ等で利用する予定である
|