Dimension and variable selection, simultaneous estimation, and computational environment for information extraction from complex data
Project/Area Number |
21K11799
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | Okayama University of Science |
Principal Investigator |
森 裕一 岡山理科大学, 経営学部, 教授 (80230085)
|
Co-Investigator(Kenkyū-buntansha) |
黒田 正博 岡山理科大学, 経営学部, 教授 (90279042)
飯塚 誠也 岡山大学, 全学教育・学生支援機構, 教授 (60322236)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 数量化 / カテゴリカルデータ / クラスタリング / 変数選択 / 加速化 / 主成分分析 / 非計量主成分分析 / 次元縮約 / 非計量多変量手法 |
Outline of Research at the Start |
マーケティングや心理学分野での応用を想定し、尺度混在や非構造のデータなど,複雑な構造をもつデータに対して,潜在的な構造や特徴を抽出する手法を提案する。そのために,複雑性を構成する尺度混在データの統一的処理と非構造部分のデータ変換を施した上で,情報の縮約と分析に価値を付加しない特徴量の削減を,分析の対象とする手法と同時に実行することで,効果的な情報抽出をめざす。また,それらを対話的に考察できるインタフェースと高速な計算が可能な環境を提供する。
|
Outline of Annual Research Achievements |
本研究では、マーケティングや社会心理学の分野を想定し、(i)情報損失を最小限に抑えた大規模さの軽減、(ii)縮約した情報や複雑性の関係の効率的な把握、(iii)尺度混在データの処理とテキストデータの処理を含む分析手順の提供、(iv)対話的なインタフェースの提供、(v)計算の効率化を順に実現していくことを目的としており、本年度は、それぞれについて取り組んだ。 (i)~(iii)については、昨年度に引き続き、テストや調査問題において無駄な項目を削除することで複雑さを軽減することに取り組んだ。特に、尺度混在データに焦点をあて、カテゴリカルデータを項目反応理論や非計量主成分分析で数量化して、カテゴリカルデータを量的に扱える手法を提案するとともに、項目反応理論で導かれる潜在特性値による変数の削減手順の開発と拡張主成分分析をカテゴリカルデータに応用する非計量拡張主成分分析の性能評価を行った。いずれも提案手法を実データに利用する場合の一般手順を示すことができた。また、(iii)の後半のテキストデータについては、テキストマイニングの結果から得られる情報をさらに分析する方法の可能性を検討した。(iv)については、R上で動く環境の1つであるShinyを利用して、対話的インタフェースの構築を試みた。(v)については、vectorε法による計算の加速化の効果をより精密に評価するため、ファジーc平均法での数値実験を行い、パラメータ(=データの様相)の違いによる加速化の性質を明らかにした。これらの成果については、日本計算機統計学会のシンポジウム、国際計算機統計協会のアジア地区の大会などで発表した。また、9月に、シンガポールとドイツの研究者を招き、大規模・複雑化データの扱いに関する研究集会を岡山と京都で開き、計算方法や効率化について議論した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
【研究実績の概要】で述べた5つの目的は、すべて着手できているが、データ収集を控えたことで、構造方程式モデルと部分的最小二乗法での質的データの検討が十分に行えていないこと、出張等も同様に控えたため、海外を含めた研究協力者との研究打合せが十分に行えなかったことが、やや遅れている理由である。いずれも次年度の計画に入れることで問題はなく、本年度行った項目反応理論や拡張主成分分析を活用した変数選択手法や加速化については十分な成果が得られている。
|
Strategy for Future Research Activity |
(i)~(iii)は引き続き継続する。特に、(i)では、構造方程式モデルと部分的最小二乗法に基づく手法の整理と非構造化データ(テキストデータ)の構造化の検討、(ii)では、Reduced k平均法を中心とした次元縮約と他の手法との同時推定手法の開発と、(iii)では、各種の多変量手法への応用と汎化に取りかかる。これらの進展に合わせ、それぞれの計算における(iv)のインタフェースの構築と(v)の加速化アルゴリズムを開発するとともに、各手法の評価を実データを基に行い、計画している成果をめざす。
|
Report
(2 results)
Research Products
(10 results)
-
-
-
-
-
-
-
[Presentation] Item Selection for qualitative data2022
Author(s)
Katayama, H., Nishiyama, C., Mori, M.
Organizer
The 11th Conference of the Asian Regional Section of the International Association for Statistical Computing (IASC-ARS2022)
Related Report
Int'l Joint Research
-
-
-