• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

大規模データセットに生じるハブ現象の解明とその医療生命系データへの応用

Research Project

Project/Area Number 16H02821
Research InstitutionYamagata University

Principal Investigator

原 一夫  山形大学, 理学部, 准教授 (30467691)

Co-Investigator(Kenkyū-buntansha) 鈴木 郁美  山形大学, 大学院理工学研究科, 助教 (20637730)
Project Period (FY) 2016-04-01 – 2020-03-31
Keywords近傍検索
Outline of Annual Research Achievements

「ハブネス」は,高次元空間におけるデータセットに生じる現象である.他の数多くのデータと類似するデータ(「ハブ」と呼ばれる)が出現する現象のことを言う.
ハブネスは,次の問題を引き起こすため,データセットの類似検索の価値を低下させる:(1)ハブによる検索結果上位の独占:クエリによらず検索結果の上位を少数のハブが占めること,すなわち,検索結果の上位にハブとなるデータがいわばスパムのように出現すること.(2)検索結果上位に現れにくいデータ数の増大:(ハブとなるデータとは反対に)ほとんどアクセスされないデータの数が増大すること.
本年度,私たちは,「バイオ配列データに関わるハブを抑制する」および「ハブ現象を異常検出に応用する」に関して昨年度に構築したアイデアを,大規模な実データで検証する段階に進んだ.ここで,大規模とは,データ数が1万から10万程度のことをいう.
バイオ配列データについては,RefSeqと呼ばれる核酸データのデータベースから,7つの生物種の合計約13万のアミノ酸配列(mRNA配列)を利用した.これらの配列について,総当たりで(blastxを用いて)類似スコアを計算した.ハブネスと呼ばれる現象が,バイオ配列データのデータセットにおいても生じているか(特定の配列が,他の多くの配列と類似するという現象が起きているか)を調べたところ,ハブネスが生じていることが確認された.ただし,大規模配列データの総当たりの類似スコア計算に,予想を超える時間を要した.
異常検出については,大規模な実データを得るための(物理的な)実験を試行錯誤した.安価なモータに羽をつけ,水抵抗による負荷を与えることで,異常データを人為的に発生させることを試すなどした.このようにして,異常検出に関わる実データの生成は,一定の成果が得られるところまでは到達したが,まだまだ試行錯誤する時間が必要である.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

「バイオ配列データに関わるハブを抑制する」および「ハブ現象を異常検出に応用する」に関して,研究実績の概要で述べたように,類似度計算およびデータ生成に想定を超える時間を要している.このため,成果を論文として発表するところまで至っていない.

Strategy for Future Research Activity

「構造データ(非ベクトル値データ,とくに,バイオ配列データ,単語共起データ)に関わるハブを抑制する」および「ハブ現象を異常値検出に応用する」に関する論文執筆を行う.これらに進展が見られ次第,「ハブの生じない近似近傍検索を実現する」に取り掛かる予定である.

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi