研究課題/領域番号 |
16H02821
|
研究機関 | 国立遺伝学研究所 |
研究代表者 |
原 一夫 国立遺伝学研究所, 生命情報研究センター, 助教 (30467691)
|
研究分担者 |
鈴木 郁美 山形大学, 大学院理工学研究科, 助教 (20637730)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 近傍検索 |
研究実績の概要 |
「ハブネス」は,高次元空間におけるデータセットに生じる現象である.他の数多くのデータと類似するデータ(「ハブ」と呼ばれる)が出現する現象のことを言う. ハブネスは,次の問題を引き起こすため,データセットの類似検索の価値を低下させる:(1)ハブによる検索結果上位の独占:クエリによらず検索結果の上位を少数のハブが占めること,すなわち,検索結果の上位にハブとなるデータがいわばスパムのように出現すること.(2)検索結果上位に現れにくいデータ数の増大:(ハブとなるデータとは反対に)ほとんどアクセスされないデータの数が増大すること. 平成28年度,私たちは,ハブネス発生のメカニズムを解明するために,データセットにハブネスが発生する原因を,高次元,データ密度の濃淡,という2つの点から整理した.その上で,正規分布に従って生成されたデータセットに生じるハブネスを解消する方法を開発した.実世界のデータセットは正規性を仮定できる場合が多いため,単なる対症療法としてではなく,理論的根拠付きのハブネス抑制方法を,正規分布に従うデータセットに対して開発したことの意義は大きいと考えられる. また,ハブネスを抑制する既存研究のほとんどは,データはベクトル空間上の点として表されるベクトル値データであること,という前提の上に成り立つ限定的なものであった.本年度,私たちは,非ベクトル値データであるバイオ配列データ,単語共起データに発生するハブネスの抑制に取り組み,ハブネスをコントロールする方法を開発した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
交付申請書に平成28年度の予定として記した「ハブ現象のメカニズムを解明する」,「構造データに関わるハブを抑制する」,「バイオ配列のBLAST検索に関わるハブを抑制する」を達成できたため(成果の外部への発表は平成29年度以降の予定).
|
今後の研究の推進方策 |
平成29年度は,「構造データに関わるハブを抑制する」に関する論文執筆を行う.また,「ハブ現象のメカニズムを解明する」については,正規分布に従わないデータセットに対する考察を進める.以上が順調に進んだ場合は,交付申請書に記載した「ハブの生じない近似近傍検索を実現する」に取り掛かる予定である.
|