研究概要 |
研究目的 検索エンジンは各種活動に必要不可欠な存在であるが,ランキングや検索結果数が本当に信頼できるかといった信頼性については不明瞭な部分が多い.本研究ではこうした信頼性を明かにし,安心してインターネットを利用できる環境を提供することを目指す. 研究項目 2009年度は下記項目において研究を進めた. (1)比較対象となるデータセット作成のための効率的な日本語Webページ収集手法 (2)Web検索のランキング解析・検索結果数の解析 (3)画像検索のランキング解析 (4)信頼性を判断するためのベンチマーク構築 研究成果 (1)では,アンカーテキスト記述言語に着目した効率的な収集手法を提案し,当該言語で記述されたWebページを効率的に収集可能(収集ページ中87%を当該言語で収集可能)であることを確認した. (2)では,1万件のクエリ(検索語)を用いてGoogle,Yahoo!,Bingを対象に約2ヶ月間解析を行った.その結果,検索結果数は「検索のタイミング(短時間の繰り返し検索)」「検索結果の何ページ目を参照しているか」「検索日時(数日以上空けての検索)」によって変動することを確認し,「検索結果の最終ページを表示している場合で,かつ,1週間以上の間,検索結果数が安定している場合」に検索結果数の信頼性が高くなることを示した. (3)では,2000件のクエリを用いてGoogle,Yahoo!,Bingを対象に約2ヶ月間解析を行った.その結果,検索エンジン間の検索画像の重複が2~8%と極めて低い点,及び,GoogleやBingは2ヶ月での変動が上位50件中30~20%であるが,Yahoo!は日によって半分以上の結果が更新されることを確認した. (4)では,研究協力者のCho准教授,Menczer准教授とディスカションを行い,検索エンジンのアーキテクチャを前提としたベンチマークを構築するための検討を行った.
|