研究課題/領域番号 |
15K00059
|
研究機関 | 徳島文理大学 |
研究代表者 |
山本 由和 徳島文理大学, 理工学部, 教授 (80240133)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 大規模データ / Apache Spark / Apache Hadoop / MapReduce |
研究実績の概要 |
本研究の目的は,大規模データから適切な集約的シンボリックデータを作成できるようにすることである.このために,並列分散処理と可視化技術を利用する.このために,次の(1) と(2)の処理を実現する予定である.(1)並列分散処理によって,大規模データから集計などによってインタラクティブに処理できる程度の大きさのデータを作り出す.(2) (1)で作り出したデータの可視化と対話的な操作による試行錯誤によって,適切な集約的シンボリックデータを作り出す. 本年度は,(1)について,検討と設計・実装を行った.この処理の実装には,MapReduceとApache Sparkを利用した.このための実験用の環境を整備して,この計算機で処理できる範囲のデータに対しての処理を行い,テストを行いながら,検討と設計を行った.これと平行して,学生を中心としたチームがデータ解析コンペティションに参加して,実データに対しても検討行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
並列分散処理によって,大規模データから集計などによってインタラクティブに処理できる程度の大きさのデータを作り出す処理についての検討と設計・実装を行った.この処理の実装には,MapReduceを利用した.このための実験用の環境として,コンピュータクラスタを用意した.これらの計算機を使って大規模データの処理を行いながら,検討と設計を行った.具体的には,MapReduceを利用したJava言語による大規模データに対する集計プログラムとこの結果を処理するためのApache Sparkを利用するScala言語によるプログラムである.これと平行して,学生を中心としたチームがデータ解析コンペティションに参加して,大規模な実データに対して,このプログラムを適用して,結果を得ることができた.
|
今後の研究の推進方策 |
今年度は,MapReduceとApache Sparkを利用した処理の検討と設計・実装を行った.この処理によって,大規模データから作り出したデータの可視化と対話的な操作による試行錯誤によって,適切な集約的シンボリックデータを作り出す過程についても,検討と設計・実装を行う.このためには,われわれが研究開発を行っているJasplotを利用する.このために,Apache Sparkの利用に重点を移動して,集計方法と分析方法についての検討と実装を行う.これと並行して可視化についての検討とカテゴリ変数間の類似度をグループごとに表すことについての検討を開始する.
|
次年度使用額が生じた理由 |
1月に購入手続きを行ったノート型コンピュータがモデルチェンジのために購入できなくなった.
|
次年度使用額の使用計画 |
代替えのコンピュータをできるだけ早い時期の購入を予定している
|