2017 Fiscal Year Research-status Report
スパースモデリングの数理と多変量解析ツールの開発研究
Project/Area Number |
16K00057
|
Research Institution | Chuo University |
Principal Investigator |
小西 貞則 中央大学, 理工学部, 教授 (40090550)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 多クラスパターン認識 / 関数回帰モデリング / 確率的次元圧縮 / スパース部分空間法 / カーネル非線形モデリング |
Outline of Annual Research Achievements |
現在,諸科学,産業界のあらゆる分野で大規模・高次元データが獲得・蓄積され,これに伴いデータに内在する情報を効率的に抽出し,知識発見に結びつけるための新たな解析手法の開発研究が国際的に推進されつつある.このような状況を踏まえ,大規模・高次元データに基づく回帰モデリング,次元圧縮,パターン認識,クラスタリングと関連するモデルの推定法,評価・選択法に関して理論的・実際的な側面から研究に取り組み,平成29年度は以下のような研究成果を挙げた. 1.パターン認識,識別・判別問題は,文字・画像認識,医用画像工学など科学の様々な分野で適用される解析手法である.本研究では,高次元空間へ散らばる複数のデータ集合を,それぞれ次元圧縮し,分類対象のデータと圧縮した空間との類似度(距離)を基準として分類する部分空間法について研究した.従来,ad-hoc に決められることが多かった圧縮次元数の決定法に対して,ベイズアプローチによる確率的主成分によって情報量およびベイズの観点からモデル評価基準を導出し,データに基づく圧縮次元の推定法を提唱した. 2.計測・測定技術の進歩は,現象過程や動作過程の連続的な計測データ,生命科学における遺伝子やタンパク質を特徴付ける高次元データなど,諸科学で大量かつ多様なデータの獲得と蓄積を可能としてきた.本年度は,離散時点で経時的に観測・測定されたベクトルデータを関数化処理して,関数化したデータ集合を対象とした解析手法の開発研究に取り組んだ.特に,現象の結果とそれに影響する様々な要因を結びつける関数回帰モデリングについて研究した.関数回帰モデリングでは, 多数のデータ系列の関数化が分析結果に影響を与えることから,対象とするデータの関数化に際して, 新たな基底関数を提案し,目的変数,説明変数の関数化に対応する3つの関数回帰モデリングに適用し,モデルの構築法について研究した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は,高次元データ集合に基づく線形・非線形スパースモデリングについて理論的・数値的両側面から研究し,回帰,識別・判別,パターン認識,次元圧縮等に関して,柔軟で汎化能力の優れた新たな多変量解析ツールの提唱と諸科学への応用研究の推進を目的とする.当初の研究目的に関して,平成29年度は次のような新たな研究成果を挙げることができた.(1) 多クラスパターン認識の有効な手法である部分空間法に関して,従来,ad-hoc に決められることが多かった圧縮次元数の決定法に対して,確率的次元圧縮法について研究し,情報量およびベイズの観点からモデル評価基準を導出し,データに基づく圧縮次元の推定法を提唱した. (2) 離散時点で経時的に観測・測定されたベクトルデータを関数化処理して,関数化したデータ集合を対象とした解析手法の開発研究に取り組み,現象の結果とそれに影響すると考えられるさまざまな要因を結びつける関数回帰モデリングの新たな基底関数を提案した.この基底関数に基づく基底展開法は,非線形構造を内包する複雑なデータの関数化を容易にし,多数の経時データの関数化に有効であることが分かった. 当初の研究目的である大規模・高次元データに内在する情報を有効かつ効率的に抽出するための分析手法の根幹をなす解析手法をいくつか提唱できたので,今後その有効性を検証し,実際問題への適用とフィードバックされた問題点をさらに検証し,柔軟で汎化能力の優れた新たな多変量解析ツールの提唱と諸科学への応用研究を推進する.さらに,数値的側面からの研究に取り組みモデリングに有効に機能する計算アルゴリズムの開発に取り組む予定である.
|
Strategy for Future Research Activity |
計算機関連技術の高度な発展によって,大規模・高次元データが獲得,蓄積され,次々とデータベース化されつつある.特に,少数かつ高次元データ,大量かつ超高次元データからの効率的な情報抽出技術の開発研究が強く希求され,国際的に研究が推進されている. 平成30年度は,これまでの研究実績を踏まえて,以下の研究課題に重点的に取り組み,現象分析に有効に機能する線形・非線形高次元データ解析法,モデリングの理論研究を推進し,同時に諸科学への応用研究に取り組む. 1.地球環境データ,気象データ,高精細立体医用画像データなどの解析に用いられるパターン認識,識別・判別,クラスタリングの解析技術の開発研究は,統計科学,機械学習の重要な研究課題である.本年度は,昨年度までの研究実績を踏まえ,多クラスパターン認識の汎用性の高い手法である部分空間法の汎化能力の向上を目指して,相互部分空間法,直交部分空間法などの確率的圧縮次元の決定法,クラスタリングへの応用,モデリングの過程にスパース正則化法を組み込んだ,最適なモデルの推定と変数選択などを理論的・実際的な側面から研究し,新たな解析手法の提唱と諸科学への応用研究を推進する. 2. 現象過程や動作過程の連続的な実験・計測データ,遺伝子やタンパク質を特徴付けるベクトルデータ,日々高頻度で観測・測定される気象データ,地球環境データなどから有益な情報やパターンを高効率に抽出するための新たな手法提唱を目指す.特に,離散時点で経時的に観測・測定されたベクトルデータを関数化処理して,関数化したデータ集合に基づく関数主成分,関数正準相関,関数クラスタリングの解析手法の開発研究に取り組む.
|