2018 Fiscal Year Annual Research Report
Study of generation of aggregated symbolic data from large data
Project/Area Number |
15K00059
|
Research Institution | Tokushima Bunri University |
Principal Investigator |
山本 由和 徳島文理大学, 理工学部, 教授 (80240133)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 並列分散計算 / データ可視化 |
Outline of Annual Research Achievements |
本研究の目的は,大規模データから集約的シンボリックデータを作成できるようにすることである.このために,並列分散処理と可視化技術を利用して,次の(1)と(2)を実現する予定である. (1) 1台の計算機で処理できないような大規模データから集約などによって,インタラクティブに処理できる程度の大きさのデータを作成する.この時に並列分散処理を行う. (2) (1)で作成したデータについての適切な集約的シンボリックデータを作り出す.これは,データによって異なるために,可視化と対話的な操作による試行錯誤を行う.この時に,必要に応じて(1)の処理に戻ることもある.適切な集約的シンボリックデータを作り出すことができれば,可視化によって大規模データの傾向を正しく把握することを期待できる. (1)については,MapReduceとApache Sparkによる並列分散処理の設計・実装を行った.特に,可視化を利用して,より適切なシンボリックデータを作り出すための試行錯誤を可能にすることを考えた.このために,大規模データに対する処理を高速に行うことが必要である.これを実現するために,Apache Sparkを使用した.さらに,様々な統計計算を可能にすることを目的として,RからApache Sparkを利用した並列処理を行うためのソフトウェアであるSparkRも使用できるようにした.この結果として,Rのプログラムを利用した計算を並列分散処理によって大規模データに適用できるようになった.(2)については,Java言語による可視化ソフトウェアであるJasplotをRから利用できるようにした.これによって,SparkRで計算した結果を分散ファイルシステムからローカルファイルシステムに集めて簡単な操作で可視化できるようになった.この結果を実データに対して適用して,集約的シンボリックデータの作成を行った.
|
Research Products
(6 results)