ビッグデータの時代には、データボリュームが非常に大きくなったわけで、従来のデータ処理アプリケーションを使用できなくなってくるのである。データマイニング、機械学習、マルチメディアなどの分野での類似検索については、ソフトウェア実装の効率と有効性は、データの類似性の測定とデータオブジェクトの特徴に依存する。特徴の数(データ次元の数)が高い場合、多くの無関係な特徴の属性によって類似性の測定にエラーの原因になり、関連する特徴を圧倒し得る。このプロジェクトの目標は、内在的な次元性の局所的な変化を利用できる技術を開発し、ビッグデータの類似性アプリケーションにおける次元性の問題に取り組むことである。
|