研究実績の概要 |
本研究は,大規模高次元データ一面であるハブネス現象に着目し,欲しい情報にたどり着くための,より頑健な数理基盤の確立を目指す.これまでの研究をより深化させ,特に,ハブネスの発生原因である次元とデータの大規模性について数理的に解析を行い,関係を明らかにする.また,ハブネスの観点から大規模高次元データの数理基盤を頑健にすることを目的とする. 高次元空間では,「次元の呪い」として知られる現象が起こる.最近,新たな次元の呪いとして,高次元データにはハブネスの現象が報告された.データ中心との距離/類似度の関係において,高次元空間で多くの事例と距離が近くなる/類似度が高くなる事例である. ハブネスにより,非常に多くの事例の近傍に出現するため,近傍情報を利用した高次元データの検索や分類に対し,望ましくない結果をもたらす.実際,商品推薦システム,音楽検索システム,文書分類などの分類タスクなど,多岐にわたるタスクにおいて,ハブネスの影響が報告されている. 我々はこれまでの研究で,類似度尺度を変換することにより,ハブネスの軽減方法を世界に先駆けて提案し,発表を行った.たとえば,ラプラシアンベースのカーネル(Suzuki et al., Investigating the Effectiveness of Laplacian-based Kernels in Hub Reduction, AAAI 2012)を用いてハブネスを軽減する方法や空間中心性を考慮したセンタリング(Suzuki et al., Centering Similarity Measures to Reduce Hubs, EMNLP 2013)は,データ中心との関係によりハブネスの軽減を行う.しかし,我々が提案したハブネス軽減法は,クラスラベルを考慮しない教師なしの方法である.訓練データが利用できる場合,教師あり学習を行い,近傍法をもとにした分類や検索問題の精度向上を目指す. 本年度は,教師あり学習のなかでも半教師あり学習について,ハブネスの影響について調査,研究を行った.
|