2019 Fiscal Year Research-status Report
Information extraction and its interactive system for large-scale mixed and complex data
Project/Area Number |
17K00063
|
Research Institution | Okayama University of Science |
Principal Investigator |
森 裕一 岡山理科大学, 経営学部, 教授 (80230085)
|
Co-Investigator(Kenkyū-buntansha) |
黒田 正博 岡山理科大学, 経営学部, 教授 (90279042)
飯塚 誠也 岡山大学, 全学教育・学生支援機構, 教授 (60322236)
久保田 貴文 多摩大学, 経営情報学部, 准教授 (30379705)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | クラスタリング / 次元縮約 / 非計量多変量解析 / 数量化 / 計算効率 / 加速化アルゴリズム |
Outline of Annual Research Achievements |
尺度混在や複雑性などを考慮し,情報縮約と分類の同時推定および変数処理により,隠れた構造や特徴を取り出せる手法の提案と,その結果を効率的に得る環境を提供することをめざし,本年度,(1)質的データの次元縮約とクラスタリングの同時推定,(2)多変数の処理,(3)効率的計算手法の実装,(4)手法の評価と総括に取り組んだ。 (1)では,既存の次元縮約とクラスタリングの同時推定手法であるReduced k-means法で質的データを扱えるようにし,尺度混在データに対する同時推定の提案とその性能の確認を行い,既存のGROUPALSやCorresponding Clusteringとの同一性を明らかにした。また,Factorial k-means法への適用も検討した。この成果は,ISI 2019 World Statistics Congress(クアラルンプール)と2019年度統計関連学会連合大会(滋賀大)で報告した。(2)は,(1)の数量化法を利用し,量的データに対する変数選択手法を質的変数に適用することで非計量主成分分析における変数選択を実現した。この成果は,Data Science Statistics & Visualisation 2019(DSSV2019,同志社大)で報告した。また,個体よりも変数の数が多いデータを扱うため,Partial Least Squaresの活用も検討した。(3)では,本研究で提案した交互最小二乗法を用いる反復計算の加速化手順を非計量主成分分析,非計量因子分析,Fuzzy c-meansクラスタリング,不完全データのブートストラップ手法に適用し,2倍強から4倍弱の加速が得られることを確認した。これらは,DSSV2019で報告した。(4)として,対話的なインタフェースをShinyで試作することを含め,これまでの手法のまとめと課題の整理を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は,観測尺度が混在し,グループ化やマルチブロック化された複雑な構造をもつ大規模データに対して,混在尺度や複雑性を考慮し,情報縮約と分類の同時推定により,隠れた構造や特徴を取り出せる手法を提案することと,その計算効率を考えた環境を提供することであった。この研究の結果,質的データへの最適尺度法の適用による数量化を既存の多変量手法に適用することで混在尺度を統一的に扱えるようにしたこと,反復計算をその計算過程にもつ手法の加速化を一般的手順に整理するとともに,Rのツールを使って使い勝手のよいインタフェースを提供することで,計算効率の向上を図ることができたこと,さらに,尺度混在データに対する次元縮約とクラスタリングの同時推定と,非計量主成分分析を中心とした変数選択手法や変数が多い場合の対処法を検討したことから,複雑性と大規模性の軽減及び隠れた特徴の抽出が可能となり,本研究の目的はおおむね達成できた。
|
Strategy for Future Research Activity |
3年研究の最終年を終え,【現在までの進捗状況】に示した通り,当初の目的にあげた課題はほぼ解決できており,今後は,本研究のアプローチを,主成分分析,因子分析,非階層的クラスタリング以外の多変量手法に広げること,本研究以外の規準による尺度混在変数の選択手法や分類方法の手法を検討していくこと,さらには,本研究で明らかになった規準を基にした尺度混在データにおける大規模変数の処理と潜在構造の把握などを継続研究していくことになる。なお,2019年度末に予定されていた国内外の学会や研究会が新型コロナウイルス感染拡大防止のため中止・延期となったため,当初計画にあげていた最終的な報告を次年度に繰り越すことになった。上記の継続研究で明らかになったことも含め,事態の終息後,できるだけ早い時期に成果報告を行うことにする。
|
Causes of Carryover |
成果報告を予定していた学会が新型コロナウイルス対策で延期となったため。
|
-
-
-
[Presentation] Some Applications in Multivariate Methods with Alternating Least Squares2019
Author(s)
Mori, Y., Katayama, H., Yoshioka, T., Kuroda, M., Iizuka, M.
Organizer
Data Science, Statistics & Visualisation 2019
Int'l Joint Research