データが高次元であるとき「次元の呪い」と言われる現象が起こる.ごく最近新たな現象として,データ中心に近い事例が,次元が高くなると非常に多くの事例と距離が近くなる現象が報告された.この事例はハブと呼ばれ,ハブは他の事例のk 近傍に頻出するため,近傍情報を利用した分類や検索,グラフ構築に悪影響を及ぼす.生命情報学分野における塩基配列データや文書(PubMed)をはじめ,大規模高次元データは増える一方であるが,活用法は十分に開発されていない.本研究では,大規模高次元データの問題の一面であるハブに注目し,類似度・距離尺度を工夫することで,分類・検索の改善を行った.
|