2019 Fiscal Year Annual Research Report
大規模データセットに生じるハブ現象の解明とその医療生命系データへの応用
Project/Area Number |
16H02821
|
Research Institution | Yamagata University |
Principal Investigator |
原 一夫 山形大学, 理学部, 准教授 (30467691)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 郁美 長崎大学, 情報データ科学部, 准教授 (20637730)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 近傍検索 |
Outline of Annual Research Achievements |
「ハブネス」は,高次元空間におけるデータセットに生じる現象である.他の数多くのデータと類似するデータ(「ハブ」と呼ばれる)が出現する現象のことを言う. ハブネスは,次の問題を引き起こすため,データセットの類似検索の価値を低下させる:(1)ハブによる検索結果上位の独占:クエリによらず検索結果の上位を少数のハブが占めること,すなわち,検索結果の上位にハブとなるデータがいわばスパムのように出現すること.(2)検索結果上位に現れにくいデータ数の増大:(ハブとなるデータとは反対に)ほとんどアクセスされないデータの数が増大すること. 本年度,私たちは,「バイオ配列データに関わるハブを抑制する」を行った.RefSeqと呼ばれる核酸データのデータベースから,ヒト,マウス,ラット,ウシ,ブタ,アフリカツメガエル,ゼブラフィッシュという7つの生物種の合計約13万のアミノ酸配列(mRNA配列)を利用した.これらの配列について,総当たりで類似スコアを計算し,計算結果(BLASTプログラムの通常使用によるバイオ配列の相同性検索の結果)を整理しようとしたところ,当初の想定に反し,計算結果が不完全である(全配列ペアに対する相同性スコアが出力されていない)ことが判明した.研究遂行上,全配列ペアに対するスコアの計算が不可欠なため,計画を見直し,BLASTプログラムの通常使用ではなく,ペアワイズ計算を行うオプショナルな使用を実施する必要が生じた. 計画を変更して類似スコアを再計算した結果,バイオ配列データのデータセットにおいて,ハブネス(特定の配列が,他の多くの配列と類似するという現象)が生じていることが確認された.さらに,われわれの提案する手法を用いて,データセットに生じるハブネスを抑制すると,blastx による配列検索の精度が向上することも,確認できた.
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|