2014 Fiscal Year Annual Research Report
メニーコアプロセッサ時代における構造化文書の高精度かつ高速検索の実現
Project/Area Number |
23500121
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
宮崎 純 東京工業大学, 情報理工学(系)研究科, 教授 (40293394)
|
Project Period (FY) |
2011-04-28 – 2015-03-31
|
Keywords | 情報検索 / メニーコアプロセッサ / XML文書 / 文書統計量 |
Outline of Annual Research Achievements |
構造化文書検索の研究は、これまで静的な文書集合に対して検索の高精度化あるいは高性能化のどちらか一方に重点がおかれて研究が行なわれてきた。本研究では、Wikipediaに代表されるようなXML文書について、多くの一般ユーザが自由に文書を書き換えられるという特徴から、リアルタイムなXML文書の更新、それに伴う高い検索精度の維持、ならびに高速検索の両立について研究を行なってきた。 文書に対する高い検索精度維持のために、リアルタイムな文書統計量計算を目指して、GPUを利用した統計量計算の高速化を試みた。クラウドコンピューティングで頻繁に使用されるMapReduceフレームワークのGPU上での実装であるMarsを利用してOkapi BM25に基づく統計量計算アルゴリズムを実装した。その結果、250MBの文書サイズ時に、2880コアのGPU実装の方が、4コアのCPUよりも9.7倍高速であることを示した。また、MapReduceフレームワークのシャッフルフェーズをソートと集約演算を分離する改良により効率化したところ、さらに20%の高速化、すなわち全体で11.6倍の高速化を実現した。GPUが非数値演算にあまり適合しないにも関わらず、一桁以上の高速化を実現できたことは大きな成果である。 一方で、XML部分文書検索で必要となる技術に、複数の適合度指標、例えばテキスト情報の適合度や文書構造の適合度などの統合がある。適合度指標間には通常、複雑な依存関係があり、その依存関係に応じた統合方法が望まれる。本研究ではCopula関数を利用する手法を試み、従来手法と比較して若干ではあるが高精度であることを予備実験で明らかにした。しかし、この関数の推定にモンテカルロ法を利用すれば非常に時間を要するため、GPUに代表されるメニーコアプロセッサの利用が必須となる。これにより、構造化文書の高精度検索のための、新たなメニーコアプロセッサ利用の可能性を示唆した。
|