2013 Fiscal Year Research-status Report
メニーコアプロセッサ時代における構造化文書の高精度かつ高速検索の実現
Project/Area Number |
23500121
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
宮崎 純 東京工業大学, 情報理工学(系)研究科, 教授 (40293394)
|
Keywords | XML文書 / 情報検索 / メニーコアプロセッサ |
Research Abstract |
XML部分文書検索の研究は、これまで静的な文書集合に対して検索の高精度化あるいは高性能化のどちらか一方に重点がおかれて研究が行なわれてきた。本研究では、Wikipediaに代表されるようなXML文書について、多くの一般ユーザが自由に文書を書き換えられるという特徴から、リアルタイムなXML文書の更新、それに伴う高い検索精度の維持、ならびに高速検索の両立について研究を行なっている。これに付け加えて、XML文書からより一般的なWeb文書への展開も検討している。 まず、XML文書の更新処理に関して、GPUでの検索のための統計量計算の高速化を試みた。クラウドコンピューティングでよく使用されるMapReduceモデルを利用して、試験的に部分文書中の統計量計算についてGPUを利用して実装し、評価を行なった。しかしながら、単に索引語頻度を数え上げる先行研究では、CPU上での計算より高速であったとの報告にも関わらず、本研究ではCPU上での性能より若干劣る結果となった。現在GPU上の統計量計算のボトルネックを解析して、改良を試みている。 一方、Web文書への部分文書検索技術の適用に関して、文書内容の論理構造と文書の物理構造一致のための再構造化、ならびに、検索結果として不要な箇所を特定するためのフィルタを提案した。評価実験の結果、再構造化によってより適切な粒度の部分文書を抽出可能となったことによる、定義やQA検索の精度の向上が達成できた。またフィルタによって文書中のメインコンテンツ以外の箇所の除外を行なったことにより、一般的なWeb文書検索と比較して再現率が低下するものの、より高精度な検索を実現できることが判明した。 これらのことから、GPUによる統計量計算の高速化に関してはまだ不十分であるものの、Web文書への適用によりWeb文書の高精度検索の新たな可能性を示すことができた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究の目標である、文書の更新を考慮しつつ、高速かつ高精度のXML部分文書検索を可能とする課題に関して、本年度はXML文書の統計量計算の高速化を目指すとともに、より一般的なWeb文書への適用を目指した。 文書の統計量の効率の良い計算のため、メニーコアプロセッサであるGPUを利用した索引語頻度等の計算を試みた。GPUが不得手とする文字列操作を伴う計算を直接プログラミングするのは困難であるため、GPU上のMapReduceフレームワークを利用して予備実験を行なった。しかしながら、CPU上での計算より高速化できず、現在原因の追及を行なっている。この点において、達成度は予想よりも遅れていると判断できる。 一方、提案している構造化文書の部分文書検索をWeb文書に展開する研究も併せて行なった。具体的にはNTCIRプロジェクトの1click-2タスクにおいて提案手法の適用を試みた。定義やQAのような適合箇所がまとまって書かれているような事柄を問い合わせるときに有効であることが判明した。これは想定していなかった結果であり、この項目に関しては達成度は高いと考えている。
|
Strategy for Future Research Activity |
今年度の研究成果から、GPUに代表されるメニーコアプロセッサにて文書統計量の計算の高速化が予想以上に難しい問題であることが判明した。しかしながら、GPU等のメニーコアプロセッサは電力あたりの計算能力が高く、低消費電力量、高速計算の双方を要求されるデータセンター向けの応用への鍵となっている。そのため、GPUを代表とするメニーコアプロセッサを利用した高精度検索手法は強く望まれており、研究する意義が高い。従って、今年度も引き続きGPUを利用した文書統計量の計算の高速化を試みる。これにあたって、まず統計量計算の性能向上を妨げる原因の解明を行ない、それを解決することを試みる。また、最新世代のGPUを利用した性能評価を行った後、より高速な統計量計算のためのアルゴリズムの開発、ならびに様々なモデルの文書統計量の計算へと展開していく予定である。
|
Expenditure Plans for the Next FY Research Funding |
未使用額が生じた要因は、研究代表者のやむを得ない事情により一時研究を中断せざるを得なかっためである。そのため、当初計画していたメニーコアプロセッサを利用した文書統計量計算部分に遅れが生じ、それに伴って研究発表ならびに論文出版も遅れているためである。 次年度は、XML文書の統計量計算について現在の問題点を解決するだけでなく、世代交代の速いGPUを最新のもので評価するため、2800コア程度のGPUを搭載する実験用計算機を購入し、文書統計量計算のためのアルゴリズムの設計と評価を行う計画である。また、研究発表ならびに論文の出版にも研究費を使用する予定である。
|