2017 Fiscal Year Research-status Report
Credibility Analysis of Web contents based on 10 billion Web pages
Project/Area Number |
17KT0085
|
Research Institution | Waseda University |
Principal Investigator |
山名 早人 早稲田大学, 理工学術院, 教授 (40230502)
|
Project Period (FY) |
2017-07-18 – 2021-03-31
|
Keywords | Webコンテンツ / 信憑性 / 信頼性 / フィッシング / 検索エンジン |
Outline of Annual Research Achievements |
本研究「100億Webページ収集に基づくWebコンテンツの信頼性解析」では,日々の暮らしに必要不可欠な存在となったWebコンテンツについて,その信頼性を示す指標を考案し,コンテンツに対する信頼性を示すと共に,コンテンツへの入口となる商用検索エンジンなどの信頼性を明らかにすることで,安心してWebを利用できる環境を提供することに資することを目指している.
初年度である平成29年度は、Webコンテンツ解析のための手法検討と、Webコンテンツ収集用プログラムの作成を中心に研究開発を進めた。まず、Webコンテンツ解析のための手法に関しては、従来の解析手法に無い手法として時系列でのコンテンツ変化を捉えるために、「A Variable-Length Motifs Discovery Method in Time Series using Hybrid Approach」法を提案した。これは、時系列データを文字情報にマッピングすることで解析のための計算量を抑え、さらに似た時系列を持つデータを抽出するための特徴的パターン(Motifs)を抽出する手法である。さらに、Webコンテンツを分類するための手法として、「単語重要度CrRv」を提案し、著者専門性推定のフィジビリティースタディを行った。本手法は、最近信憑性が問題となっているSNSのように短い文章にも対応できる点に特徴がある。さらに、Webコンテンツを効率的に収集するための手法として、「History-enhanced Focused Website Segment Crawler」を提案した。具体的には、Webページ収集中の挙動(ページ収集効率の変化)を特徴量として採用し、収集対象となるWebコンテンツに収集優先度を付与する方法である。これにより、ある話題に関したWebページを収集する場合に10%効率化することに成功した(従来手法比)。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初予定していたベンチマーク素案の検討については、現時点では完了していないものの、信頼性解析のための基盤となる各種技術について研究開発を行うことができたことによる。
|
Strategy for Future Research Activity |
今後は、平成29年度後半と平成30年度前半に導入するWebコンテンツ収集のためのコンピュータサーバ群を動作させ、いくつかの分野を対象にWebコンテンツの収集を開始する。並行して、平成30年度中には、信頼性指標のコアとなる考え方について提案を行っていく。現在の予定では、「Webコンテンツの外部依存度」を様々な指標から計算し、信頼性判定のための特徴量として用いることを想定している。
さらに、最終年度までに、信頼性を判断するためのベンチマークの構築、100億Webページに対する信頼度評価、Webコンテンツと検索エンジンの信頼度評価と信頼性評価尺度を提案し、国際的に発信していくことを想定している。
|
Causes of Carryover |
採択決定が7月、研究推進に必須となるサーバの導入が年末まで伸び、Webページ収集開始が遅くなった。これにより、研究補助者の雇用(収集及び解析サポートを想定していた)に至らず、繰越が生じている。繰越となった約61万円は次年度において、Webデータ収集・解析を補助する人件費として利用する予定である。
|