2013 Fiscal Year Annual Research Report
100億ノードからなる自律分散システムのシミュレーション手法
Project/Area Number |
25700008
|
Research Category |
Grant-in-Aid for Young Scientists (A)
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
首藤 一幸 東京工業大学, 情報理工学(系)研究科, 准教授 (90308271)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | シミュレーション / 大規模分散システム |
Research Abstract |
我々はこれまで、計算機1台上で動作するシミュレータを並列化・分散化することで複数台で動作するようにし、シミュレート可能規模を大きくすることを試みてきた。このアプローチは一定の成功を収め、数台で数倍規模のシミュレーションを達成した。しかし一方で、致命的な問題がいくつか明らかになった。シミュレーション速度は通信オーバヘッドによって大幅に、1桁~数桁、低下した。そして何よりも、今後の大規模化ではシミュレータが耐故障性を備えることが必須となっていくにもかかわらず、機能の開発・メンテナンスには極めて大きな時間と労力がかかることが判ってきた。 そこで我々は、既存の大規模データ処理システム、具体的にはMapReduce処理系や分散グラフ処理系を用いた分散システムシミュレーションの検討を始めた。つまり、シミュレーション対象をデータ処理の方式・システムで扱うのである。例えばMapReduce処理系Apache Hadoopには4,000台での動作実績があり、この規模でシミュレーションを行うことができれば、100万×4,000 = 40億ノード程度のシミュレーションが可能かもしれない。一方で、このアプローチには別の課題がある。こうしたデータ処理システムは、データ処理と計算機間通信を交互に繰り返すBulk Synchronous Parallel (BSP) モデルで動作する。これを素直に分散システムシミュレーションに適用すると、ノード間通信は一斉にしか行えないこととなり、これでは通信タイミングについて近似的なシミュレーションしか行えない。 Bulk Synchronous Parallel (BSP) モデルで分散処理を進めつつも、シミュレーション対象のノード群が通信を行う時刻、順序、依存関係を正しくシミュレートできる手法を開発した。それをMapReduce処理系の上に実装し、ある種の分散アルゴリズムをシミュレートできることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画していた通り、時間の取り扱い手法を開発し、その有効性をある程度確認できた。
|
Strategy for Future Research Activity |
計画通り、手法の有効性確認を進める。具体的には、より大規模なシミュレーション、いくつかのネットワークトポロジでのシミュレーション、シミュレータのリソース消費量(保存しておくログの長さ)の調査などを進める。
|
Expenditure Plans for the Next FY Research Funding |
平成25年度の充足率60%を踏まえて、実験用機材の購入計画を変更したため。 平成26年度以降、実験用機材を購入するか、または、購入せずに済む方法を検討する(例えば、機材が必要な実験は他の研究として行う、など)。
|