2016 年度実施状況報告書

大規模データからの集約的シンボリックデータの作成に関する研究

研究課題

研究課題/領域番号	15K00059
研究機関	徳島文理大学
研究代表者	山本由和徳島文理大学, 理工学部, 教授 (80240133)
研究期間 (年度)	2015-04-01 – 2019-03-31
キーワード	HDFS / 可視化ソフトウェア / Apache Spark / MapReduce
研究実績の概要	本研究の目的は，大規模データから集約的シンボリックデータを作成できるようにすることである．このために，並列分散処理と可視化技術を利用して，次の(1)と(2)を実現する予定である．(1) 1台の計算機で処理できないような大規模データから集約などによって，インタラクティブに処理できる程度の大きさのデータを作成する．この時に並列分散処理を行う．(2)(1)で作成したデータについての適切な集約的シンボリックデータを作り出す．これは，データによって異なるために，可視化と対話的な操作による試行錯誤を行う．この時に，必要に応じて(1)の処理に戻ることもある．適切な集約的シンボリックデータを作り出すことができれば，可視化によって大規模データの傾向を正しく把握することを期待できる．現在までに，(1)についての検討と設計・実装を行った．具体的には，次の2つのことを行った．1つは，MapReduceとApache Sparkによる並列分散処理の設計・実装である．特に，Apache Sparkの使用によって，大規模データのクラスタリングを高速に行うことができる．また，RからApache Sparkを利用した並列処理を行うためのソフトウェアであるSparkRについても調査・検討を行った．もう1つは，分散ファイルシステム上の計算結果をローカルファイルシステムにダウンロードして可視化する機能の設計と実装である．特に，ファイアウォールの内側にあるコンピュータクラスタ上に構成される分散ファイルシステム上のファイルも扱うことができる．この処理の実装には，JSch (Java Secure Channel)を利用した．これと並行して，学生を中心としたチームがデータ解析コンペティションに参加して，実データに対しても検討を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由昨年度に用意したコンピュータクラスタを利用した実データの並列分散処理を行いながら検討と設計を行った．具体的には，Apache Sparkを利用した大規模データのクラスタリングとRからApache Sparkを利用した並列処理を行うためのソフトウェアであるSparkRを利用したデータ分析を行った．また，分散ファイルシステム上の計算結果をローカルフィルシステムにダウンロードして可視化する機能の実現も行った．このために，Java言語によって暗号化した通信を行うためにJSch (Java Secure Channel)とわれわれが開発している統計データの可視化ソフトウェアであるJasplotを利用した．また，学生を中心としたチームがデータ解析コンペティションに参加して，実データに対しても適用することができた．
今後の研究の推進方策	集約的シンボリックデータの可視化についての検討と設計・実装を行う．特に，グループ間の関係と距離を分かりやすく表示すること，対話的操作によってグループを変更できることを目標とする．このために，われわれが開発している統計データの可視化ソフトウェアであるJasplotの機能拡張を行う．開発した機能は，学生を中心としたチームがデータ解析コンペティションなどに参加して，実データに対しても適用する
次年度使用額が生じた理由	物品の購入と旅費が予定よりも安価になったため
次年度使用額の使用計画	計画的に有効に使用する

研究成果
(5件)

すべて 2016

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち国際学会 3件)

[雑誌論文] アニメーションを利用した購買情報の表示2016
- 著者名/発表者名
  山本由和，高野慎也
- 雑誌名
  
  計算機統計学
  
  巻: 29 ページ: 77-87
- 査読あり
[学会発表] MapReduceとSparkを利用した大規模データのクラスタリング2016
- 著者名/発表者名
  山本由和，松田真実，藤本祐規
- 学会等名
  日本計算機統計学会
- 発表場所
  プラサヴェルデ
- 年月日
  2016-11-25 – 2016-11-25
- 国際学会
[学会発表] Clustering huge data sets using Hadoop and Spark2016
- 著者名/発表者名
  Yoshikazu Yamamoto
- 学会等名
  Statistics Kore
- 発表場所
  Statistics Korea Statistics Center
- 年月日
  2016-11-05 – 2016-11-05
- 国際学会
[学会発表] Clustering large data sets using MapReduce and Apache Spark2016
- 著者名/発表者名
  Yoshikazu Yamamoto, Mami Matsuday, Yuki Fujimotoz, Nobuo Shimizux, Junji Nakano
- 学会等名
  Proceedings of the 2016 International Conference for JSCS 30th Anniversary in Seattle
- 発表場所
  Seattle Central Library
- 年月日
  2016-10-17 – 2016-10-17
- 国際学会
[学会発表] カテゴリー変数を含む集約的シンボリックデータの非類似度の性質2016
- 著者名/発表者名
  清水信夫，中野純司，山本由和
- 学会等名
  2016年度統計関連学会連合大会
- 発表場所
  金沢大学
- 年月日
  2016-09-05 – 2016-09-05

2016 年度 実施状況報告書

大規模データからの集約的シンボリックデータの作成に関する研究

研究代表者

山本 由和 徳島文理大学, 理工学部, 教授 (80240133)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] アニメーションを利用した購買情報の表示2016

著者名/発表者名

雑誌名

[学会発表] MapReduceとSparkを利用した大規模データのクラスタリング2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Clustering huge data sets using Hadoop and Spark2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Clustering large data sets using MapReduce and Apache Spark2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] カテゴリー変数を含む集約的シンボリックデータの非類似度の性質2016

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実施状況報告書

山本由和徳島文理大学, 理工学部, 教授 (80240133)