研究課題/領域番号 |
25730142
|
研究種目 |
若手研究(B)
|
研究機関 | 国立遺伝学研究所 |
研究代表者 |
鈴木 郁美 国立遺伝学研究所, 生命情報研究センター, 博士研究員 (20637730)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 高次元データ / ハブネス / k近傍法 / センタリング |
研究概要 |
データが高次元であるとき「次元の呪い」と言われる不思議な現象が起こる.ごく最近新たな現象として,データ中心に近い事例が,次元が高くなると非常に多くの事例と距離が近くなる現象が報告された.この事例はハブと呼ばれ,ハブは他の事例のk近傍に頻出するため,近傍情報を利用した分類や検索,グラフ構築に悪影響を及ぼす.生命情報学分野における塩基配列データや文書(PubMed)をはじめ,大規模高次元データは増える一方であるが,データ全体を理解した上での活用法は十分に開発されていない.本研究では,大規模高次元データの問題の一面であるハブに注目し,類似度・距離尺度を工夫することで,分類・検索の改善を目指す. ハブが出現する原因として、高次元性とデータ中心(セントラリティ)の概念がある.すなわち,データが高次元になるとハブが出現し,データ中心とより類似度が高いサンプルがハブになりやすい. ハブを軽減するために,類似度尺度に着目し,ハブの原因であるセントラリティをなくす方法を試みた.具体的には,セントラリティをなくす方法として,データ中心との類似度をすべてのサンプルについて一定にする方法である.そのような方法として,センタリング法を提案した.類似度行列をセンタリングする,すなわち,特徴空間上でベクトルの原点をセントロイドに置き換えることによって,ハブの出現が抑えられることを確認した.さらに,センタリング法の理論的背景を調べ,センタリング法がハブを減らすこと理論的に示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
高次元データに出現するハブの問題に着目し,以下の点について取り組み,達成した. 1.センタリング法が,ハブを軽減するような類似度尺度であることを見つけた.具体的には,センタリング法は,データ中心との類似度をすべてのサンプルについて一定にする性質があることを示した. 2.類似度行列をセンタリングする,すなわち,特徴空間上でベクトルの原点をセントロイドに置き換える方法であるが,距離の場合は影響を受けず,ベクトルの内積を類似度とする場合に特徴的な方法であることがわかった. 3.センタリング法によりハブの出現が抑えられることを実験的に確認した.さらに,センタリング法の理論的背景を調べ,センタリング法がハブを減らすこと理論的に示した.
|
今後の研究の推進方策 |
今後の課題として, 1.サンプル数とハブの関係を調べることである.先行研究では、ハブが出現する原因として,データの高次元性とセントラリティがあると報告された.しかし,人工データで実験した結果,データセットに含まれるサンプル数との関係も示唆されるので,更なる調査が必要である. 2.センタリング法の他に,ラプラシアンベースのカーネルもハブを軽減する性質がある.しかし,センタリング法でハブを軽減するデータセットとラプラシアンベースのカーネルがハブを減らすデータセットは異なる場合がある.よって,データ中心との関係の他にハブに関する要因が考えられる.センタリング法とラプラシアンベースのカーネルの共通点,相違点を見つける理論的背景を調べることにより,ハブに関するほかの要因を明らかにする.
|
次年度の研究費の使用計画 |
ハブを軽減する方法として,センタリング法を提案し,センタリングがハブを軽減するような類似度尺度に変換できる性質を持つことを示した.論文投稿の予定であったが,更なる理論の拡充を行い,投稿を行うために次年度に延期することにした. 理論解析を進めたセンタリング法の論文投稿,会議での発表に使用する予定である.
|