研究課題/領域番号 |
23656072
|
研究機関 | 早稲田大学 |
研究代表者 |
村田 昇 早稲田大学, 理工学術院, 教授 (60242038)
|
研究期間 (年度) |
2011-04-28 – 2013-03-31
|
キーワード | データ縮約 / 情報量 / 多重カーネル学習 |
研究概要 |
平成23年度は,重み付きデータを対象とした情報量の推定法と,データ縮約のための歪み関数の検討を目標としていた.前者については,古典的なk-近傍法によるエントロピーのノンパラメトリック推定量の一般化を行った,重み付きデータにおける近傍の定義を見直し,データから計算される経験累積分布関数の分位点にもとづくエントロピー,情報量およびKullback-Leibler情報量の推定量を構成した.これらの推定量の統計的性質を理論的に調べるとともに,計算量や安定性の観点から推定量を緩和し,大規模なデータに対しても高速に計算可能な方法を提案した.また実データに適用して,その精度・性能の評価を行った.この結果は現在論文として投稿し,査読中である.後者については,データ空間の距離構造をデータそのものから学習する問題として捉え,多重カーネル学習からのアプローチを行った.具体的には,非線形の回帰問題に着目し,sliced inverse regression の枠組を用いて,多次元の説明変数の最適な次元縮約を行うカーネル関数の線形結合を求める多重カーネル学習の問題として定式化した.この枠組により学習されたカーネル関数は,データ空間の本質的な性質を低次元に効率よく圧縮して取り込んでいると考えられ,獲得されたカーネル関数により導かれる特徴空間が自然な距離構造を持っていることが期待される.次元縮約に際しての評価関数としては,特徴空間上でのデータの分布の正規性が重要な役割を果たすが,特徴空間上に定義される経験特性関数をカーネル関数により直接表現し,正規性を評価する方法を新たに提案した.この内容は論文として投稿し,採録が決定した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1つ目の目標である,重み付きデータを対象とした情報量の推定法については,計画段階で検討していたk-近傍法の考え方を発展させて重み付きデータ点の経験累積分布を用いる方法に対して,理論面から十分検討でき,また実データに対しても良好な結果が得られた.またShannon情報量以外の情報量に対する方法も理論的な検討は行った.なお,現在より詳細な統計的性質の解析とそれに基づいた補正を検討しているが,実データを用いた実験においては補正前の推定量でも十分な性質が確認されているため,次年度の計画に特に支障はないと考えている.2つ目の目標である,データ縮約のための歪み関数の検討については,いくつかの方法論が考えられたが,当初より重要視していた多重カーネル学習の枠組で一定の成果を上げたと考えている.もう一つ方法論として挙げていたダイバージェンス関数による方法は部分空間法によるデータ近似の枠組で検討を進めている.
|
今後の研究の推進方策 |
初年度の成果である重み付きデータの情報量の推定法により,原データと重み付きの縮約データのそれぞれ分布の間の距離を計算する方法が構築できたので,これをもとに大規模なデータ集合の縮約問題に取り組む.ここで扱う距離の最小化問題は非線形性を有しているので,現実的な時間で最適な解,あるいは近似解を得るための最適化方法を問題の構造に鑑み検討する.また,いくつかの実問題に提案手法を適用し,その有効性の検証や問題点の洗い出しを行い,大規模データから縮約された重み付きデータを獲得するより実用的な方法を構築する.
|
次年度の研究費の使用計画 |
前年度は理論研究に重点を置いたため,当初の計画とは異なり実証実験を目的としたソフトウエア開発のための技術補助のの報酬(謝金)をしなかったが,次年度においてはこれを使用する.また,理論成果を対外的に発表するために国内・国外旅費として相当額を使用する.
|