2011 Fiscal Year Research-status Report
メニーコアプロセッサ時代における構造化文書の高精度かつ高速検索の実現
Project/Area Number |
23500121
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宮崎 純 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40293394)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 情報検索 / XML / 部分文書検索 / 高精度検索 / マルチコアプロセッサ / 高性能計算 |
Research Abstract |
XML文書検索の研究は、これまで検索の高精度化、すなわち検索結果中に含まれる適合文書の割合をいかに高めるか、にのみ重点がおかれ、従来のマクロな文書検索と比べて、部分文書検索は根本的に計算コストが大きいにも関わらず、処理時間についてはあまり考慮されてこなかった。更に、高精度検索の手法が、単語の高度な重み付けによる方法や、確率的言語モデルを利用しており、文書の更新を全く考慮していないあるいは更新に弱いという問題があった。この問題に対して、文書の動的な更新を念頭に置き、高速な更新操作、高速な問合せを可能としつつ検索精度を保つために、索引のスキーマと更新コストを低減するための二つのフィルタを提案した。67万XML文書からなるテストコレクションを利用して評価実験を行った結果、提案索引スキーマを利用することで新たに追加された文書へも適切に重み付け可能であり、提案するフィルタを利用することで検索精度を維持しつつ索引構築時間を4割程度、索引サイズを1割程度削減可能であることを明らかにした。一方で、マルチコアプロセッサ向けの効率のよい汎用データ構造の維持管理手法の提案も行った。このデータ構造はマルチコアプロセッサを有効に動作させるために必要な要件の一つであるキャッシュのヒット率を高めるために、繰り返し使用されるリスト構造について、計算の進行に従い動的にデータ構造を再構築してキャッシュヒット率を落とさないようにするものである。この提案データ構造を、試験的にあるデータマイニング手法に適用したところ、処理速度が25%以上向上することを明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目標である、文書の更新を考慮しつつ、高速かつ高精度のXML部分文書検索を可能とする課題に関して、検索精度を維持しつつ、top-k問合せを可能とするためtag-term索引とpath索引の二つを利用する。しかし、更新処理に関係する索引の維持コストを下げるために、検索結果となりうる確率の極めて低い索引語や複雑なパスの部分文書を予めフィルタで取り除いている。従来更新を考慮しつつ、高精度、高速性を同時に満たす検索の研究はほとんど行われていなかったにも関わらず、本研究結果は、先駆的アイデアとその良好な結果が得られたことを鑑みると、本研究の初年度の達成度としては十分であると考える。一方、マルチコアあるいはメニーコアプロセッサを使用する際に問題となる、共有データのデータ構造の効率の良い維持管理について、キャッシュヒット率を維持し処理速度を上げるために、本来の計算とは関係のない、データ構造の再構築処理にコストをかけても結果的に処理速度を向上させることが可能であることを示した点で、今後のXML部分文書検索の処理性能向上に利用できる可能性を示した点において、研究期間を考慮すると順調な進捗といえる。
|
Strategy for Future Research Activity |
文書の更新を考慮しつつ、高速かつ高精度のXML部分文書検索を可能とするための二つの索引と二種類のフィルタに関して、文書の削除や文書中の一部の更新処理の評価について今後行っていく予定である。また、この提案手法は基本的なアルゴリズムとデータ構造の提案にとどまっており、マルチコア、メニーコアプロセッサを利用する並列アルゴリズムとはなっていないため、処理手順や全体に占める計算コストの割合を考慮して、適切な並列アルゴリズムの設計を進めていく予定である。しかしながら、XML部分文書検索のための索引処理は、多くの部分で大きなデータ並列性を持つ問題であり、並列アルゴリズムの設計は今後の研究課題であるものの、提案したマルチコアプロセッサ向きの効率の良い維持管理手法を組み合わせて、より良い処理方式を提案していく予定である。その際にGPUの利用を考慮することで、より効率の高いアルゴリズムの設計を行っていく方針である。
|
Expenditure Plans for the Next FY Research Funding |
未使用額が生じた要因は、研究の進捗状況に合わせ、予算執行計画を変更したことに伴うものである。また、次年度の請求額と合わせての執行計画は以下の通りである。マルチコア、メニーコアプロセッサでのXML部分文書検索の処理を考慮しているため、最新の8コアプロセッサ搭載、さらに最新のGPUが搭載されている実験用の計算機をそれぞれ購入し、並列アルゴリズムの設計、検証、評価を行う予定である。さらに、昨年度中に有効性を明らかにした未発表の研究成果ならびに次年度に得られた研究成果に関する対外発表と、論文出版を中心に研究費を利用する予定である。
|