2017 Fiscal Year Research-status Report
選択的に実行履歴を記録する手法の改善と新しい応用の開発
Project/Area Number |
17K00096
|
Research Institution | Kanazawa University |
Principal Investigator |
櫻井 孝平 金沢大学, 電子情報学系, 助教 (80597021)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | プログラム解析 / 実行履歴 / アクターモデル / 機械学習 |
Outline of Annual Research Achievements |
当該年度は実行履歴を扱う際のデータ処理について調査・検討を行い、高性能なデータ処理のため、並列分散システムを構築するためのフレームワークを使い機械学習アプリケーションを構築した。これらのアプリケーションは、逐次的に入力される大量のデータに対してオンラインの決定木学習や階層的クラスタリングである。決定木学習はVFDTと呼ばれるアルゴリズム、階層的クラスタリングはBIRCHと呼ばれるアルゴリズムをそれぞれ使用した。これらのアルゴリズムはいずれも入力データを軽量な形式に変換して蓄積した木を構築する手法をとり、大規模なデータに対応可能である点に共通の特徴がある。一方で、並列・分散化は想定されておらず、本研究ではこれらのアルゴリズムを並列分散処理基盤としてアクターモデルを利用して統一的に実現した。開発にはJavaとアクターツールキットであるAkkaを用いて実装した。いくつかの既存のデータセットを用いて予備的な実験を行い、並列化された学習が行えることを確認した。 また、大量のデータを処理する並列分散基盤であるHadoopに対してトレースデータの取得を行い、機械学習から実行時間を予測する予備的な実験を行った。この結果から、最新のHadoopのクラスタ上で動作するアプリケーションの実行履歴の取得が可能で、また機械学習によって実行時の性能に関する有用な知見を得られる可能性があることがわかった。 これらの結果から選択的に実行履歴を取得したり、実行履歴を機械学習の手法と組み合わせて活用することが可能になったと考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当該年度は主に予備的な調査・実験を行なったが、特に機械学習やアクターモデルについて調査し、独自に実装を行なった。これらの実装はJavaを用い、アクターツールキットとしてAkkaを利用し構築するとで、実践的な適用が可能になっている。実際の計算機クラスタ上で大規模なデータを利用して並列・分散化された環境での実験が可能となった。また、Hadoop上で記録した実行履歴データから機械学習を適用する実験を行うことで、分散環境で取得された実行履歴データを統合して学習に適用するための知見を得た。
|
Strategy for Future Research Activity |
現時点では直接実行履歴と対応するような形式ではないが、今後はこれらの成果を応用して選択的な実行履歴への適用として記録手法の改善につなげる予定である。具体的には、まず分散化に対応した環境での実験を行う。アクターモデルでのデータ処理基盤の実装は分散化が可能であり、大量のデータを処理するために分散した計算機環境での動作を目指す。また、決定木や階層クラスタリングなどの機械学習アルゴリズムを並列・分散化することは一般的に容易ではなく、アルゴリズムが知られているとしても実装が難しい。そこで、そのような実装を支援するプログラミング言語上の機構やツールなどの開発を検討する。これには実行履歴を応用することも含む。実験対象として利用するアプリケーションとしてHadoop上のサンプルプログラムやImageNetの画像データベースのような巨大なデータセットの学習などを検討する。
|
Causes of Carryover |
当該年度は主に開発と予備的な実験のためにワークステーションを購入したが、性能要求から仕様を検討した結果、主に高性能なGPUを利用しなかったことと既存の開発環境の利用により、次年度使用額が生じた。次年度ではこれを実験環境を充実させるための費用に充てる予定である。
|
Research Products
(1 results)