2016 Fiscal Year Annual Research Report
FMMとH行列を組み合わせた大規模連立一次方程式の反復解法
Project/Area Number |
16H05859
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
横田 理央 東京工業大学, 学術国際情報センター, 准教授 (20760573)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 数値解法 / 反復法 / 前処理 / H行列 / FMM |
Outline of Annual Research Achievements |
平成28年度には、限られた偏微分方程式しか解くことのできない現在のFMMを一般的な偏微分方程式に適用できるH行列による連立一次方程式の解法へと拡張した。これは、FMMの多重極展開の部分を代数学的な低ランク近似に置き換えることで行った。この際にFMMが適用可能な問題についてはH行列をFMMに変換することでメモリの消費量を低減した。H行列はFMMにデータ構造や処理の流れが酷似しているため、ベースとなる高性能な実装であるexaFMMコードを開発している申請者のグループにおいては拡張は比較的容易に行なうことができた。また、FMMコードをベースにH行列のコードを開発することでマトリックスフリーなH行列の実装に成功した。これによりH行列の最も大きな欠点であったメモリ消費量を1/100程度に低減することができ、既存のH行列では解析が不可能な1兆自由度の境界要素法解析を実現した。 平成28年度の2つ目の課題であったH行列のLU分解に関しても、HACApKコードをBlock Low-Rank形式に変換することでPLASMAなどの密行列ライブラリに実装されているBlock LU分解の原理を用いて並列処理を行うことができた。従来のPLASMAと根本的に異なる点は一つ一つのブロックが低ランク近似されている点であり、これが大きな計算量、メモリ消費量の削減につながった。 当初の計画では平成29年度の課題であった、内部カーネルのチューニングも平成28年度に行うことができた。これはAbdullah国王科学技術大学(KAUST)とIntelとの共同研究によりFMMの内部カーネルのKnights Landing上でのチューニングが行われ、HiCMAプロジェクトの一環としてH行列の内部カーネルのKnights Landing上でのチューニングも行われた。その結果FMM、H行列ともにピークに近い性能を発揮できた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
申請時の研究計画では、平成28年度には「限られた偏微分方程式しか解くことのできない現在のFMMを一般的な偏微分方程式に適用できるH行列による連立一次方程式の解法へと拡張する」ことと「行列ーベクトル積しか計算することのできない本H行列実装をLU分解にまで拡張すること」の2つが目標であった。これらの2つの目標は達成され、期待していた通りの性能向上を得ることができたため、平成28年度の研究の進捗状況は良好であるといえる。FMMからH行列への拡張により、従来はPoisson方程式やHelmholtz方程式などのGreen関数解を有する偏微分方程式にしか適用できなかったものを、より一般的な偏微分方程式に適用できるようになった。これはH行列の観点から見るとAdaptive Cross Approximationやrandomized SVDなどの欠点をFMMを用いた圧縮を行うことで排除できることになる。 申請時の研究計画では、平成29年度の課題として設定していた「FMMやH行列の内部カーネルのチューニング」もKAUSTとIntelとの共同研究が予想以上に早く進んだことにより、平成28年度中に実現することができた。この点で本課題は当初の計画以上に進展しているといえる。残る課題としては「実アプリケーションにおけるマルチグリッド法との比較」があるが、こちらも既に実験の最終段階に入っており、KAUSTの博士課程の学生(申請者が指導)が中心となって論文を執筆中である。本課題の研究計画調書にもある通り、FMMとマルチグリッド法との直接比較は申請時の時点でできており、平成29年度に行うのはFMMとH行列のハイブリッド法とマルチグリッド法との比較である。ハイブリッド法ではFMMでは扱えないより一般的な偏微分方程式を対象とし、H行列ではメモリ不足になるような規模の計算においてマルチグリッド法と比較する。
|
Strategy for Future Research Activity |
進捗状況の欄に述べたように本課題は当初の計画以上に進展しているため、申請時の研究計画調書で挙げた研究目標は平成29年度の前半に達成できる見込みである。そこで、平成29年度の後半では当初の研究計画には含まれていなかった「FMM、H行列ハイブリッド法のGPU上での最適化」と「H行列の機械学習への適用」を新たな追加目標として設定する。本課題では東工大のスパコンTSUBAMEの利用料を予算に計上しており、これを用いたマルチGPUによる高速化を行う環境は既に整備されている。また、平成29年の8月にはTSUBAMEが2.5から3.0にアップグレードされ、最新のPascal世代のGPUをNVLINKで相互に結合した何倍も高性能な計算機となる。この計算機環境を最大限に利用することで世界でも前例のない高性能・大規模なFMM・H行列の計算を行うことを目標とする。機械学習への応用に関しては、平成28年度の12月に採択されたJST CRESTの研究課題「社会インフラ映像処理のための高速・省資源深層学習アルゴリズム基盤」において平行して検証を行ってきており、FMMやH行列のような低ランク近似法が機械学習における密行列にも適用できることが確認できている。ただし、機械学習の密行列は辺長比が大きく、低ランク近似による圧縮率も入力データ、ネットワークの種類、層によって大きく変化することも確認されている。現在、機械学習では低精度(16bit)の浮動小数点演算を用いる試みがなされているが、肝心の密行列積はなんら近似を用いることなく行われており、多くの無駄な演算が行われている。本課題で提案する高速な低ランク近似法はこの密行列積の演算量を大幅に低減するものであり、機械学習の高速化に大いに役立つもと期待される。
|
Research Products
(17 results)