• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

大規模高次元データの近傍検索・分類に適した類似度尺度の研究

研究課題

研究課題/領域番号 25730142
研究種目

若手研究(B)

研究機関国立遺伝学研究所

研究代表者

鈴木 郁美  国立遺伝学研究所, 生命情報研究センター, 博士研究員 (20637730)

研究期間 (年度) 2013-04-01 – 2017-03-31
キーワード高次元データ / ハブネス / k近傍法 / センタリング
研究概要

データが高次元であるとき「次元の呪い」と言われる不思議な現象が起こる.ごく最近新たな現象として,データ中心に近い事例が,次元が高くなると非常に多くの事例と距離が近くなる現象が報告された.この事例はハブと呼ばれ,ハブは他の事例のk近傍に頻出するため,近傍情報を利用した分類や検索,グラフ構築に悪影響を及ぼす.生命情報学分野における塩基配列データや文書(PubMed)をはじめ,大規模高次元データは増える一方であるが,データ全体を理解した上での活用法は十分に開発されていない.本研究では,大規模高次元データの問題の一面であるハブに注目し,類似度・距離尺度を工夫することで,分類・検索の改善を目指す.
ハブが出現する原因として、高次元性とデータ中心(セントラリティ)の概念がある.すなわち,データが高次元になるとハブが出現し,データ中心とより類似度が高いサンプルがハブになりやすい.
ハブを軽減するために,類似度尺度に着目し,ハブの原因であるセントラリティをなくす方法を試みた.具体的には,セントラリティをなくす方法として,データ中心との類似度をすべてのサンプルについて一定にする方法である.そのような方法として,センタリング法を提案した.類似度行列をセンタリングする,すなわち,特徴空間上でベクトルの原点をセントロイドに置き換えることによって,ハブの出現が抑えられることを確認した.さらに,センタリング法の理論的背景を調べ,センタリング法がハブを減らすこと理論的に示した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

高次元データに出現するハブの問題に着目し,以下の点について取り組み,達成した.
1.センタリング法が,ハブを軽減するような類似度尺度であることを見つけた.具体的には,センタリング法は,データ中心との類似度をすべてのサンプルについて一定にする性質があることを示した.
2.類似度行列をセンタリングする,すなわち,特徴空間上でベクトルの原点をセントロイドに置き換える方法であるが,距離の場合は影響を受けず,ベクトルの内積を類似度とする場合に特徴的な方法であることがわかった.
3.センタリング法によりハブの出現が抑えられることを実験的に確認した.さらに,センタリング法の理論的背景を調べ,センタリング法がハブを減らすこと理論的に示した.

今後の研究の推進方策

今後の課題として,
1.サンプル数とハブの関係を調べることである.先行研究では、ハブが出現する原因として,データの高次元性とセントラリティがあると報告された.しかし,人工データで実験した結果,データセットに含まれるサンプル数との関係も示唆されるので,更なる調査が必要である.
2.センタリング法の他に,ラプラシアンベースのカーネルもハブを軽減する性質がある.しかし,センタリング法でハブを軽減するデータセットとラプラシアンベースのカーネルがハブを減らすデータセットは異なる場合がある.よって,データ中心との関係の他にハブに関する要因が考えられる.センタリング法とラプラシアンベースのカーネルの共通点,相違点を見つける理論的背景を調べることにより,ハブに関するほかの要因を明らかにする.

次年度の研究費の使用計画

ハブを軽減する方法として,センタリング法を提案し,センタリングがハブを軽減するような類似度尺度に変換できる性質を持つことを示した.論文投稿の予定であったが,更なる理論の拡充を行い,投稿を行うために次年度に延期することにした.
理論解析を進めたセンタリング法の論文投稿,会議での発表に使用する予定である.

  • 研究成果

    (3件)

すべて 2014 2013

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件) (うち招待講演 1件)

  • [雑誌論文] 文法的・意味的共起を利用した単語類似度の計算2013

    • 著者名/発表者名
      原一夫、鈴木郁美、新保仁、松本裕治
    • 雑誌名

      人工知能学会論文誌

      巻: 28 ページ: 379-390

    • DOI

      10.1527/tjsai.28.379

    • 査読あり
  • [学会発表] The Effect of Data Centering for k-nearest neighbor2014

    • 著者名/発表者名
      Ikumi Suzuki
    • 学会等名
      Workshop on Mathematical Approaches to Large-Dimensional Data Analysis
    • 発表場所
      Tokyo, JAPAN
    • 年月日
      20140313-20140315
    • 招待講演
  • [学会発表] Centering Similarity Measures to Reduce Hubs2013

    • 著者名/発表者名
      Ikumi Suzuki, Kazuo Hara, Masashi Shimbo, Marco Saerens, Kenji Fukumizu
    • 学会等名
      The 2013 Conference on Empirical Methods on Natural Language Processing (EMNLP)
    • 発表場所
      Seattle, USA
    • 年月日
      20131019-20131019

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi