2015 Fiscal Year Research-status Report
大規模データからの集約的シンボリックデータの作成に関する研究
Project/Area Number |
15K00059
|
Research Institution | Tokushima Bunri University |
Principal Investigator |
山本 由和 徳島文理大学, 理工学部, 教授 (80240133)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 大規模データ / Apache Spark / Apache Hadoop / MapReduce |
Outline of Annual Research Achievements |
本研究の目的は,大規模データから適切な集約的シンボリックデータを作成できるようにすることである.このために,並列分散処理と可視化技術を利用する.このために,次の(1) と(2)の処理を実現する予定である.(1)並列分散処理によって,大規模データから集計などによってインタラクティブに処理できる程度の大きさのデータを作り出す.(2) (1)で作り出したデータの可視化と対話的な操作による試行錯誤によって,適切な集約的シンボリックデータを作り出す. 本年度は,(1)について,検討と設計・実装を行った.この処理の実装には,MapReduceとApache Sparkを利用した.このための実験用の環境を整備して,この計算機で処理できる範囲のデータに対しての処理を行い,テストを行いながら,検討と設計を行った.これと平行して,学生を中心としたチームがデータ解析コンペティションに参加して,実データに対しても検討行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
並列分散処理によって,大規模データから集計などによってインタラクティブに処理できる程度の大きさのデータを作り出す処理についての検討と設計・実装を行った.この処理の実装には,MapReduceを利用した.このための実験用の環境として,コンピュータクラスタを用意した.これらの計算機を使って大規模データの処理を行いながら,検討と設計を行った.具体的には,MapReduceを利用したJava言語による大規模データに対する集計プログラムとこの結果を処理するためのApache Sparkを利用するScala言語によるプログラムである.これと平行して,学生を中心としたチームがデータ解析コンペティションに参加して,大規模な実データに対して,このプログラムを適用して,結果を得ることができた.
|
Strategy for Future Research Activity |
今年度は,MapReduceとApache Sparkを利用した処理の検討と設計・実装を行った.この処理によって,大規模データから作り出したデータの可視化と対話的な操作による試行錯誤によって,適切な集約的シンボリックデータを作り出す過程についても,検討と設計・実装を行う.このためには,われわれが研究開発を行っているJasplotを利用する.このために,Apache Sparkの利用に重点を移動して,集計方法と分析方法についての検討と実装を行う.これと並行して可視化についての検討とカテゴリ変数間の類似度をグループごとに表すことについての検討を開始する.
|
Causes of Carryover |
1月に購入手続きを行ったノート型コンピュータがモデルチェンジのために購入できなくなった.
|
Expenditure Plan for Carryover Budget |
代替えのコンピュータをできるだけ早い時期の購入を予定している
|
Research Products
(4 results)