2020 Fiscal Year Research-status Report
Credibility Analysis of Web contents based on 10 billion Web pages
Project/Area Number |
17KT0085
|
Research Institution | Waseda University |
Principal Investigator |
山名 早人 早稲田大学, 理工学術院, 教授 (40230502)
|
Project Period (FY) |
2017-07-18 – 2022-03-31
|
Keywords | Webコンテンツ / 信憑性 / 信頼性 / フィッシング / Webクローラ |
Outline of Annual Research Achievements |
本研究は、Webコンテンツの信頼性を数値化することで、安心してWebを利用できる環境を提供することを目指している。本年度は、昨年度に引き続き、(1)URLの特徴を用いた信頼度判定手法、(2)人間の第一印象によるWebページ信頼性判定手法、及び、(3)著者人数推定に基づく信頼度判定に取り組んだ。
URLの特徴を用いた信頼度判定では、URLのホスト部とパス部に対して異なる判定手法を適用し精度向上を行った。具体的には、ホスト部ではURLを単語分割した上でLSTMを適用し、パス部については昨年度と同様、文字単位での特徴量を用いた。DMOZ及びPhishTankのデータセットを用いた評価では、96.81%のAUCを達成し、同手法の有効性を確認した。 Webページの第一印象に基づく信頼性判定では、Google Lighthouseが出力する特徴量を用い判定を実現した。Fake News Datasetによる評価では、従来手法を上回る正解率90%を達成した。本研究において収集したWebページを対象として、人による「第一印象」と「熟考した場合」での信頼性判定の差異についても調査を行い、80%のWebページは第一印象による判定により信頼性判定が可能であることを示した。 著者人数推定に基づく信頼度判定では、「コンテンツが複数人の著者により記述されることにより信頼度が向上する」という点に着目し、文章の執筆者数を信頼性の測定指標とすることを目標として研究を推進した。手法改善に取り組み、2人によって記述された文章に対する執筆者数の正解率81.8%、3人の場合74.8%、4人の場合65%を達成した。提案手法では、著者変更点を文章の最初からスライドさせ、当該変更推定点からの距離によって特徴量の重みを指数関数的に変化させ、精度向上を行った。これにより、信頼性判定の一つの指標としての利用可能性を示すことができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Webページの信頼性判定を目標に3手法により信頼度判定を実現してきた。結果として、今年度の精度向上により高い精度を達成できる見込みがたったことによる。
|
Strategy for Future Research Activity |
本研究が目指している「信頼性、信憑性の判定」に主眼を置き、最終年度に向けてさらなる精度向上に努めると共に、当初計画通り、判定用のデータセット公開を行うことを予定している。また、当該成果の国会会議での発表を予定する。
|
Causes of Carryover |
COVID-19感染拡大に伴い、本研究計画時に予定していた出張が取り止めとなったこと、外部発表時期がずれたことによる。繰越金については、次年度国際会議発表及び研究補助員費として利用する予定である。
|