2017 Fiscal Year Research-status Report
Project/Area Number |
17K12684
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
欅 惇志 東京工業大学, 情報理工学院, 助教 (00733958)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | GPGPU / データプリミティブ / 辞書 / MapReduce / パイプライン処理 / 情報検索 |
Outline of Annual Research Achievements |
タスク指向型情報検索システムにおける検索プロセスは,まず検索対象文書集合に対する語の重み付けを行い,その後検索クエリが入力されれば,検索対象文書に対してスコアを計算し,検索結果の提示を行う.平成 29 年度は,主に語の重み付けの高速化に取り組んだ. 近年,大規模データを扱う上で,これまで画像処理に用いられてきた GPU を,科学技術計算などの汎用計算に用いる取り組み GPGPU が盛んである.これら成熟しつつある GPGPU を情報検索においても実現するため,1. 辞書やデータプリミティブを用いることで高速な語の重み付け計算や,2. 大規模データをチャンクに分割することで,メインメモリと比較して少メモリサイズの GPU においても大規模データに対して語の重み計算の実現を行った. 1. 語の重み計算においては,文書中の語のカウントには語のソートが必須となるが,文字列の管理が煩雑となる GPU においては,その処理効率が低下する.そこで本プロジェクトでは,語を数値化することで,高速な比較を実現した.また,GPU の特長である高い並列性を最大限活用するため,効率的な処理を提供するデータプリミティブを駆使し,語の重み計算を行う手法の提案を行った. 2. 既存の手法においては,GPU のメモリ量を超えるデータ量の文書を扱うことを想定していないため,Web スケールのデータを処理することは不可能である.そこで本プロジェクトでは,データを一定値のチャンクごとに分割することで,大規模データに対しても語の重み計算を実現する手法を提案した.その際,複数の処理をパイプラインで繋ぐことで,より高速な処理を実現した.また,アドホックなタスクにおいても処理を実現すべく,動的なチャンクサイズの推定手法の提案も同様に行った. これらにより,GPU を用いた高速な語の重み計算手法の提案を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
タスク指向型情報検索システムにおける 2 段階の検索プロセスはのうち,1 段階目のプロセスである検索対象文書集合に対する語の重み付けを高速に行う手法の提案を行った.従って,本課題は順調に進展していると考えられる.
|
Strategy for Future Research Activity |
平成 30 年度は引き続き,高速な文書のスコアリング手法の提案を行う.その際,タスク指向型検索システムに特化した処理である,高速なクエリ分析の実現にも同様に取り組む予定である.
|
Causes of Carryover |
共同研究者より高性能な計算機の無償での貸出を受けたため,物品費として計上していた予算の使用がなくなった.また,参加予定であった国際会議への参加を見送ったため,旅費として計上していた予算の使用がなくなった.これらの予算は,それぞれ,2018 年度の, TheWebConf 2018 への参加費と計算用ノード購入の費用に割り当てる.
|