研究概要 |
本研究では,検索エンジンの検索結果を研究に用いる際の基盤となることを目指し,得られた検索結果数の信頼性に対する評価指標を定義し,妥当性評価を行った.検索エンジンによって得られる検索結果数は自然言語処理など様々な研究で利用されているが,検索結果数は10倍,100倍と値が揺らぎ,その信頼姓が問題視されてきた. 本研究では,どのような条件を満たした場合に,信頼性を保証できるのか特定するため,検索結果数に対する信頼性評価指標を提案し実用性評価を行った.本分野の専門家であるNJITのGuller教授,トルコ・メルキッシュ大学のUyar准教授との意見交換を行いながら研究を進めた.具体的には,「クエリ間の検索結果数の大小関係がm日間変わらない確率」を定義した.その上で,大規模な検索結果数観測データをもとに商用検索エンジン(Google, Yahoo!, Bing)に対して信頼性評価実験を行った. 提案手法の妥当性検証では,「エラー率」(採用すべきでない検索結果数を採用した割合)と「スキップ率(採用すべきでない検索結果数の採用を避けることができた割合)により評価した.結果として,エラー率0.5%以下,スキップ率は90%以上と高く,提案手法の有効性を示すことができた.これにより,利用者は,得られた検索結果数を採用してよいか否かを判断できるようになる.また,ベンチマークとなるデータ(各検索エンジンの検索結果数の変動データ)の公開を開始した. 本研究のもう一つの柱である画像検索における信頼性に関する研究では,画像検索の信頼性を向上させる手法として,画像検索結果として表示されるサムネイルの視認性向上手法の提案・評価を行った.さらに,画像分析に関して階層的画像分類手法を提案すると共に,動画への応用として類似動画を高速,高精度で検索する手法を構築した.
|