2018 Fiscal Year Research-status Report
Information extraction and its interactive system for large-scale mixed and complex data
Project/Area Number |
17K00063
|
Research Institution | Okayama University of Science |
Principal Investigator |
森 裕一 岡山理科大学, 経営学部, 教授 (80230085)
|
Co-Investigator(Kenkyū-buntansha) |
黒田 正博 岡山理科大学, 経営学部, 教授 (90279042)
飯塚 誠也 岡山大学, 全学教育・学生支援機構, 教授 (60322236)
久保田 貴文 多摩大学, 経営情報学部, 准教授 (30379705)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | クラスタリング / 次元縮約 / 非計量多変量解析 / 数量化 / 計算効率 / 加速化アルゴリズム |
Outline of Annual Research Achievements |
混在尺度や構造の複雑性を考慮し,情報縮約と分類の同時推定により,隠れた構造や特徴を取り出せる手法の提案と,その結果を対話的および高速に得る計算環境を提供することをめざし,本年度は,(1)先行研究の情報収集と分析・整理,(2)尺度混在データの処理方法の研究,(3)計算効率の検討,(4)次元縮約手法とクラスタリングの同時推定の検討,(5)対話性の導入に取り組んだ。 (1)(2)の検討結果は(4)で実現し(後述),(3)では,交互最小二乗法などの反復計算を必要とする手法全般に適用できる加速化の一般的手順(昨年度に提案)を用い,非計量主成分分析や非計量因子分析での実績を踏まえ,Fuzzy c-means クラスタリング(FCM)や不完全データのブートストラップ手法の加速化を提案し,FCMでは約2倍,不完全データでは約3倍の加速が得られることを確認した。FCMでの成果は,日本計算機統計学会第32回大会,COMPSTAT2018(ルーマニア),CMStatistics 2018(イタリア)で,不完全データでの成果は,EcoSta2018(香港),IASC-ARS2018(北京)で報告した。(4)では,統計解析環境R用関数「clustrd」を解析し,同時推定のアルゴリズムの詳細を確認するとともに,Reduced k-means クラスタリング(RKM)で尺度混在データが扱えるように,われわれの成果である非計量主成分分析をアルゴリズムに組み入れ,実際の計算を行えるようにした。この成果は,ISI 2019 World Statistics Congress (マレーシア)での発表が採択されている。(5)については,「clustrd」を例に,パラメータなどをGUIで指定できるインタフェースを Shiny で試作し,上記の各提案手法のインタフェースのあり方を検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
反復計算を必要とする手法全般に適用できる加速化の一般的手順を整理し終え,新たな対象手法として Fuzzy c-means クラスタリング(FCM)に加速化手法を適用し,その効果を確認できたこと,本研究でターゲットとする次元縮約と分類の同時推定手法が,RKM と Factorial k-means(FKM)および関連の手法で具体的なアルゴリズムが確認できたこと,特に,量的データを対象とする RKM に,非計量主成分分析の手法を取り入れ,質的データの扱いを可能としたこと,FCMの加速化は国内外の学会で発表し,質的データが扱える RKM の提案手法は,国際学会での発表で採択されたことから,本年度の研究については,順調に進んでいると判断される。
|
Strategy for Future Research Activity |
今後も「研究実績の概要」に示した(1)~(5)を継続・発展させることを行う。 具体的には,(2)と(3)については,本年度はファジークラスタリングを対象としたように,次元縮約やクラスタリングに関係する他の古典的な多変量手法へ対象を広げていく。(4)については,提案した尺度混在データの次元縮約とクラスタリングの同時推定の手法をFKMへ拡張すること,それらの手法の性能を多角的に評価していくこと,変数選択への応用および加速化を検討していくことを行う。さらに,これらの研究と同時か,ある程度の目途が立ったタイミングで,(5)のインタフェースを構築していく。これらにより(2)~(5)が融合された成果を求めていく。 研究成果については,統計関係の会議(IASC-ARSなどの国際会議,日本計算機統計学会や日本行動計量学会などの国内学会)で報告を行う。
|
Causes of Carryover |
(理 由)早割り等の航空券の購入により,旅費の節約が行えたため。 (使用計画)資料収集,成果発表を積極的に行うための出張費に充てる。
|