• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

大規模データセットに生じるハブ現象の解明とその医療生命系データへの応用

研究課題

研究課題/領域番号 16H02821
研究機関山形大学

研究代表者

原 一夫  山形大学, 理学部, 准教授 (30467691)

研究分担者 鈴木 郁美  山形大学, 大学院理工学研究科, 助教 (20637730)
研究期間 (年度) 2016-04-01 – 2020-03-31
キーワード近傍検索
研究実績の概要

「ハブネス」は,高次元空間におけるデータセットに生じる現象である.他の数多くのデータと類似するデータ(「ハブ」と呼ばれる)が出現する現象のことを言う.
ハブネスは,次の問題を引き起こすため,データセットの類似検索の価値を低下させる:(1)ハブによる検索結果上位の独占:クエリによらず検索結果の上位を少数のハブが占めること,すなわち,検索結果の上位にハブとなるデータがいわばスパムのように出現すること.(2)検索結果上位に現れにくいデータ数の増大:(ハブとなるデータとは反対に)ほとんどアクセスされないデータの数が増大すること.
本年度,私たちは,半教師あり学習の精度改良に成功した.機械学習において,ラベルなしデータを積極的に活用する半教師あり学習は,人手によるラベル付与というコストフルな作業が不要なため,ビッグデータ解析に適すると考えられる.しかし,半教師あり学習において代表的な,k近傍グラフでのラベル伝播によるアプローチは,k近傍グラフに出現しやすいハブノードが(意味あるラベルだけでなく)ノイズも伝播してしまうという問題があった.私たちはこの問題を解決することに成功した(情報検索のトップ国際会議である SIGIR 2017 で成果を発表した).
さらに,本年度は,「構造データ(非ベクトル値データ,とくに,バイオ配列データ,単語共起データ)に関わるハブを抑制する」および「ハブ現象を異常値検出に応用する」に関するアイデアの構築と,予備実験によるアイデアの検証まで進むことができた.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

交付申請書に平成29年度の予定として記した「構造データに関わるハブを抑制する」を,予定どおり達成できたため(成果の外部への発表は平成30年度の予定).

今後の研究の推進方策

「構造データ(非ベクトル値データ,とくに,バイオ配列データ,単語共起データ)に関わるハブを抑制する」および「ハブ現象を異常値検出に応用する」に関する論文執筆を行う.以上が順調に進んだ場合は,交付申請書に記載した「ハブの生じない近似近傍検索を実現する」に取り掛かる予定である.

  • 研究成果

    (1件)

すべて 2017

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件)

  • [雑誌論文] Centered kNN Graph for Semi-Supervised Learning2017

    • 著者名/発表者名
      Suzuki Ikumi、Hara Kazuo
    • 雑誌名

      SIGIR '17 Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval

      巻: SIGIR '17 Proceedings ページ: 857-860

    • DOI

      10.1145/3077136.3080662

    • 査読あり / オープンアクセス

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi