2016 Fiscal Year Annual Research Report
A study of joint dimension reduction and clustering for heuristic considerations of large-scaled data
Project/Area Number |
26330052
|
Research Institution | Okayama University of Science |
Principal Investigator |
森 裕一 岡山理科大学, 総合情報学部, 教授 (80230085)
|
Co-Investigator(Kenkyū-buntansha) |
飯塚 誠也 岡山大学, 全学教育・学生支援機構, 教授 (60322236)
黒田 正博 岡山理科大学, 総合情報学部, 教授 (90279042)
水谷 直樹 岡山理科大学, 総合情報学部, 准教授 (30330533)
久保田 貴文 多摩大学, 経営情報学部, 准教授 (30379705)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 多変量解析 / 次元縮約 / 非計量主成分分析 / 非計量因子分析 / クラスター分析 / 加速化アルゴリズム / 対話的可視化ツール |
Outline of Annual Research Achievements |
大規模データを念頭におき,データの特徴を把握するための情報縮約とクラスタリングおよびその計算手法について検討することを目的に,最終年度として,(1)次元縮約とクラスタリングの研究動向と情報把握,(2)尺度混在データの処理方法の整理と提案,(3)対話性をもったインタフェースの開発,(4)計算効率の検討,(5)提案手法の評価への接近を行った。 (1)では,日本行動計量学会,統計関連学会連合,日本計算機統計学会の国内学会,数理統計協会アジア・環太平洋会合(4th IMS-APRM),国際計算機統計学会(COMPSTAT2016),国際中国統計協会国際会議(ICSA2016),国際計算機統計学会アジアセクション会議(IASC-ARS2016)などの国際学会に参加し,関連するセッションに参加するとともに,研究協力者などとの交流によって研究評価や動向把握を行った。また,最初の2つの国際会議では,本研究課題に関するセッションが企画でき,また,ICSA2016では招待セッションに招待され,それぞれ成果発表と同分野の研究者らと討論を行った。(2)では,非計量主成分分析と非計量因子分析における尺度混在データの分析およびその変数選択を定式化した。(3)では,開発プラットフォームとしてShinyを導入し,2値データの分析で,パラメータや出力を試行錯誤的に変化させる仕組みを実現した。(4)については,計算回数が膨大な場面(大規模データや変数選択)での加速化の性能を評価するとともに,より効率的なリスタート法を提案した。また,Hadoopを用いて計算環境を整えた。(5)は,(2)~(4)の数値例と(1)の各セッションでの議論を通じて,各手法・ツールの評価を行った。 以上より,主成分分析の文脈で,あらゆる尺度の大規模データに対して,情報を発見的に表現・把握する高速な計算環境を整えることができた。
|