2016 Fiscal Year Research-status Report
大規模データからの集約的シンボリックデータの作成に関する研究
Project/Area Number |
15K00059
|
Research Institution | Tokushima Bunri University |
Principal Investigator |
山本 由和 徳島文理大学, 理工学部, 教授 (80240133)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | HDFS / 可視化ソフトウェア / Apache Spark / MapReduce |
Outline of Annual Research Achievements |
本研究の目的は,大規模データから集約的シンボリックデータを作成できるようにすることである.このために,並列分散処理と可視化技術を利用して,次の(1)と(2)を実現する予定である.(1) 1台の計算機で処理できないような大規模データから集約などによって,インタラクティブに処理できる程度の大きさのデータを作成する.この時に並列分散処理を行う.(2)(1)で作成したデータについての適切な集約的シンボリックデータを作り出す.これは,データによって異なるために,可視化と対話的な操作による試行錯誤を行う.この時に,必要に応じて(1)の処理に戻ることもある.適切な集約的シンボリックデータを作り出すことができれば,可視化によって大規模データの傾向を正しく把握することを期待できる. 現在までに,(1)についての検討と設計・実装を行った.具体的には,次の2つのことを行った.1つは,MapReduceとApache Sparkによる並列分散処理の設計・実装である.特に,Apache Sparkの使用によって,大規模データのクラスタリングを高速に行うことができる.また,RからApache Sparkを利用した並列処理を行うためのソフトウェアであるSparkRについても調査・検討を行った.もう1つは,分散ファイルシステム上の計算結果をローカルファイルシステムにダウンロードして可視化する機能の設計と実装である.特に,ファイアウォールの内側にあるコンピュータクラスタ上に構成される分散ファイルシステム上のファイルも扱うことができる.この処理の実装には,JSch (Java Secure Channel)を利用した. これと並行して,学生を中心としたチームがデータ解析コンペティションに参加して,実データに対しても検討を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度に用意したコンピュータクラスタを利用した実データの並列分散処理を行いながら検討と設計を行った.具体的には,Apache Sparkを利用した大規模データのクラスタリングとRからApache Sparkを利用した並列処理を行うためのソフトウェアであるSparkRを利用したデータ分析を行った. また,分散ファイルシステム上の計算結果をローカルフィルシステムにダウンロードして可視化する機能の実現も行った.このために,Java言語によって暗号化した通信を行うためにJSch (Java Secure Channel)とわれわれが開発している統計データの可視化ソフトウェアであるJasplotを利用した. また,学生を中心としたチームがデータ解析コンペティションに参加して,実データに対しても適用することができた.
|
Strategy for Future Research Activity |
集約的シンボリックデータの可視化についての検討と設計・実装を行う.特に,グループ間の関係と距離を分かりやすく表示すること,対話的操作によってグループを変更できることを目標とする.このために,われわれが開発している統計データの可視化ソフトウェアであるJasplotの機能拡張を行う. 開発した機能は,学生を中心としたチームがデータ解析コンペティションなどに参加して,実データに対しても適用する
|
Causes of Carryover |
物品の購入と旅費が予定よりも安価になったため
|
Expenditure Plan for Carryover Budget |
計画的に有効に使用する
|
Research Products
(5 results)