2014 Fiscal Year Research-status Report
大規模データの発見的特徴把握のための情報縮約・クラスタリング融合手法の研究
Project/Area Number |
26330052
|
Research Institution | Okayama University of Science |
Principal Investigator |
森 裕一 岡山理科大学, 総合情報学部, 教授 (80230085)
|
Co-Investigator(Kenkyū-buntansha) |
飯塚 誠也 岡山大学, 学内共同利用施設等, 教授 (60322236)
黒田 正博 岡山理科大学, 総合情報学部, 准教授 (90279042)
水谷 直樹 岡山理科大学, 総合情報学部, 准教授 (30330533)
久保田 貴文 多摩大学, 経営情報学部, 准教授 (30379705)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 多変量解析 / 次元縮約 / 非計量主成分分析 / 非計量因子分析 / クラスター分析 / 加速化アルゴリズム / 対話的可視化ツール |
Outline of Annual Research Achievements |
大規模データを対象とした情報縮約とクラスタリングの融合手法の開発を行うことを目的とし,本年度は,研究計画に従い,「(1) 先行研究等の情報収集と分析・整理」,「(2) 次元縮約手法(変数選択手法を含む)の検討」,「(3) あらゆる尺度を考慮した情報縮約とクラスタリングの研究」を行った。 (1)では,学術雑誌からの情報収集に加え,国内では日本計算機統計学会などの大会,海外では COMPSTAT2014 において,関連セッションでの最新情報を確認するとともに,利用可能な計算パッケージ等の収集を行った。(2)では,Sparse PCA や Lasso などが利用されている手法を参考にしつつ,本研究で利用している計算用の関数にこれらを組み込む準備を進めた。また,(1)(2)のために,関連する業績をもつ研究者を集めたセッションを大会等で企画し(日本行動計量学会第42回大会での特別セッション「交互最小二乗法のデータ解析における活用と新展開」や統計数理研究所共同利用研究集会「質的データ分析への再接近-基本理解と周辺理論-」など),積極的な議論と動向把握に努めた。これらにより,特に次元縮約とクラスタリングの同時推定については,交互最小二乗法を中心とした展開がなされ,大規模データにおいて重要視されたアプローチであることが確認できた。(3)では,情報縮約とクラスタリングを別々に扱うこととし,主として,情報縮約に焦点をあて,質的データに対する多変量手法である非計量主成分分析と非計量因子分析を計算環境へ実装することと人工データを用いた評価を行った。これにより,主成分分析の文脈で,データの複雑さを取り扱うこととあらゆる尺度が混在したデータの処理を最適変換を軸に統一的に扱う手順を明確にでき,同時に,従来から行っている計算の効率化も非計量主成分分析と非計量因子分析で実現できた。これらについては,成果発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」に記した番号に従い,理由を述べる。 (2)の複雑さの検討は,その既存の研究成果が多いため,さらに整理が必要であることと,(3)のクラスタリングでの尺度混在データの扱いは十分な検討はできていない。しかし,(1)(2)については,概要で述べた通り,討論の場を設けたことで,予定以上の情報収集および動向把握が行えている。また,(3)においては,非計量主成分分析から適用手法の範囲を広げ,非計量因子分析でも尺度混在データや計算の加速化が扱えるようになったことから,これについても予定以上の成果が得られたといえる。 以上より,研究はおおむね順調に進展していると判断される。
|
Strategy for Future Research Activity |
次年度は,研究計画に従い,複雑さの分析,尺度混在データの処理,対話的・発見的情報表現の実現,計算環境の構築の4つの機能を情報縮約とクラスタリングの融合手法へ実装することを行っていく。具体的には,次の3つを展開していく。 (4) これまでの(1)(2)(3)の継続として,(2)(3)の実装に目途が立ったタイミングで,(1)を発展させる形で,「情報縮約とクラスタリングの新しい融合手法の開発」に入る。同時に,自動推定の可能性とそれが可能な場合のユーザへの推奨値の示し方や値を変化させるインタフェースについて検討を始める。 (5) 提案する各手法を,発見的,試行錯誤的に適用できるよう,「計算環境への対話的操作の導入」と,加速化を含めた「計算効率の検討」を行う。 (6) 提案する手法について,(1)等で集めてきた各種の実データに適用して「手法の評価」を行う。 明らかになった研究成果については,積極的に,統計関係の国際会議(IFCS2015,IASC-ARS2015,COMPSTAT2016など)や国内会議(日本計算機統計学会,日本行動計量学会,統計関連連合大会など)で発表を行う。
|
Causes of Carryover |
ソフトウェアのアカデミック版を購入したことで,予定額より安く買えたため。
|
Expenditure Plan for Carryover Budget |
成果発表を積極的に行うため,出張費に充てる。
|
-
-
-
[Presentation] 最小交互二乗法の加速化2014
Author(s)
森 裕一,黒田正博,飯塚誠也,榊原道夫
Organizer
日本行動計量学会第42回大会
Place of Presentation
東北大学(宮城・仙台)
Year and Date
2014-09-03 – 2014-09-05
-