研究課題/領域番号 |
26880031
|
研究機関 | 独立行政法人情報通信研究機構 |
研究代表者 |
寺田 吉壱 独立行政法人情報通信研究機構, 脳情報通信融合研究センター 脳情報通信融合研究室, 研究員 (10738793)
|
研究期間 (年度) |
2014-08-29 – 2016-03-31
|
キーワード | クラスタリング法 / 高次元データ |
研究実績の概要 |
正則化によるクラスタリング法に関する理論的研究において,最も基本となるL1正則化を用いたクラスタリング法ではクラスタが形成されず,クラスタリングとしての意味をなさないクラスタ数1に対応する罰則係数の取り方でしかクラスタ中心の一致性が成り立たず,良い挙動を示さないことが分かった.そのため,より重要な関数データに対するクラスタリング問題に取り組んだ.関数データに対するクラスタリング法の研究では,関数データの無限次元性に着目することで,強い条件のもとではあるが漸近的にperfectな分類が達成できる方法を提案した.また,関数データのクラスタリングの困難性を高次元データと対比することで非常に直観的に示すことができた.明らかになった困難性をclearできれば,高次元データのクラスタリング問題と同様に比較的弱い条件の下で,良い性質をもったクラスタリング法の提案が可能となる. 高次元データに対するクラスタリング法に関しては,現在論文を再投稿中であり,実際のfMRIデータに適用することで外れ値の検出等に役立っている.また,提案手法であるdistance vector clusteringは大阪大学 下平教授らが開発したR packageであるpvclustに組み込んで頂く予定である. さらに,非教師付学習であるgraph embeddingに関する研究成果を国内の研究会において発表し,統計学や機械学習の研究者との議論を深めた.予定していた研究に加え,昨年度よりAnalysis of Distributional Dataという書籍における非教師付学習である多次元尺度構成法(MDS)に関するChapterをMDSの権威であるGroenen教授から依頼があり共同執筆中である.これに際して,MDSに関連するR packageの作成も行っている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
正則化によるクラスタリング法に関する理論的研究を通して,正則化によりクラスタを形成する方法はクラスタが形成されずらく,うまく機能しない場合が多いことがわかった.そのため,より重要な関数データに対するクラスタリング法に関する研究へ移行し,ある程度の成果が得られた.高次元データに対するクラスタリング法に関しては,現在論文の再投稿中であり,実際のfMRIデータに適用することで外れ値の検出等に役立っていることから,おおむね順調である. 以上より,高次元データに対するクラスタリング法の研究はおおむね進んでいるが,正則化によるクラスタリング法の研究を関数データに対するクラスタリング法に変更したため,やや遅れていると評価した.
|
今後の研究の推進方策 |
関数データに対するクラスタリング法に関する研究は方法論的なものが多く,理論的なアプローチが少ない.これまでの研究で関数データの無限次元性に着目することで,強い条件の下では,漸近的にperfectな分類を行えるクラスタリング法を構築した.しかし,実データ解析の場面においては,条件が不自然であるため,より弱い条件の下で良い性質をもった関数データに対するクラスタリング法の構築を目標とする.また,これに関連して,関数データの共分散構造の差も反映したよりよい関数データの判別分析法の構築についても取り組む.困難が生じた場合は,現在関数データの正準相関分析の理論研究において共同研究を行っている京都大学の山本助教と共同研究を行う.また,余裕があれば,正則化によるクラスタリング法が悪い性質をもつことをまとめ,論文化することを検討する.
|