2021 Fiscal Year Annual Research Report
Credibility Analysis of Web contents based on 10 billion Web pages
Project/Area Number |
17KT0085
|
Research Institution | Waseda University |
Principal Investigator |
山名 早人 早稲田大学, 理工学術院, 教授 (40230502)
|
Project Period (FY) |
2017-07-18 – 2022-03-31
|
Keywords | Webコンテンツ / 信憑性 / 信頼性 / フィッシング / Webクローラ |
Outline of Annual Research Achievements |
本研究は、Webコンテンツの信頼性を数値化することで、安心してWebを利用できる環境を提供することを目指している。最終年度である2021年度は、昨年度に引き続き、(1)URLの特徴を用いた信頼度判定手法、(2) Webページ信頼性判定、及び、(3)著者人数推定に基づく信頼度判定に取り組み、それぞれの項目で成果を上げた。
URLの特徴を用いた信頼度判定では、2020年度までの手法に加え、ワード単位(URL全体、ドメイン部)、文字単位(パス部)での解析を統合、さらに自然言語処理で用いられる各種統計特徴量を統合することで、フィッシングサイト検出の正解率向上を行った。評価実験の結果、従来(2020年度)の手法に比較し、フィッシングURLの割合が半分を占めるバランスデータセットにおいて10%、フィッシングURLが10%を占めるインバランスデータセットにおいて12%の正解率向上を達成した。さらに、従来手法との比較も行い、最終的に99.2%(本研究で収集したインバランスデータセット)、99.4%(従来他論文で利用されているバランスデータセット)の正解率を達成し、従来手法を超える正解率を確認し、実用性の向上を果たした。 Webページの信頼性判定においては、本分野の我が国における研究を活性化し、本研究が目指す「安心してWebを利用できる環境を提供する」ことを目指すため、最新技術を紹介するサーベイ論文を電子情報通信学会論文誌(英文D)に投稿し、採択(オープンアクセスジャーナル)された。 著者人数推定に基づく信頼度判定では、2020年度までの方法に対して、文章の「係り受け構造」の特徴量を用いることでの判定精度向上を目指し、正解率を向上させた。特に昨年度までの手法では、1人で書いた論文の著者数推定精度が48.6%と低かったが、本手法を適用することで56.3%まで向上させることに成功した。
|