2019 Fiscal Year Research-status Report
Project/Area Number |
16K00066
|
Research Institution | Nagasaki University |
Principal Investigator |
鈴木 郁美 長崎大学, 情報系新学部創設準備室, 准教授 (20637730)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | ハブネス / 空間中心性 / ハブの軽減 |
Outline of Annual Research Achievements |
本研究は,大規模高次元データ一面であるハブネス現象に着目し,欲しい情報にたどり着くための,より頑健な数理基盤の確立を目指す.これまでの研究をより深化させ,特に,ハブネスの発生原因である次元とデータの大規模性について数理的に解析を行い,関係を明らかにする.また,ハブネスの観点から大規模高次元データの数理基盤を頑健にすることを目的とする. 高次元空間では,「次元の呪い」として知られる現象が起こる.最近,新たな次元の呪いとして,高次元データにはハブネスの現象が報告された.データ中心との距離/類似度の関係において,高次元空間で多くの事例と距離が近くなる/類似度が高くなる事例である. ハブネスにより,非常に多くの事例の近傍に出現するため,近傍情報を利用した高次元データの検索や分類に対し,望ましくない結果をもたらす.実際,商品推薦システム,音楽検索システム,文書分類などの分類タスクなど,多岐にわたるタスクにおいて,ハブネスの影響が報告されている. 我々はこれまでの研究で,類似度尺度を変換することにより,ハブネスの軽減方法を世界に先駆けて提案し,発表を行った.たとえば,ラプラシアンベースのカーネル(Suzuki et al., Investigating the Effectiveness of Laplacian-based Kernels in Hub Reduction, AAAI 2012)を用いてハブネスを軽減する方法や空間中心性を考慮したセンタリング(Suzuki et al., Centering Similarity Measures to Reduce Hubs, EMNLP 2013)は,データ中心との関係によりハブネスの軽減を行う.しかし,我々が提案したハブネス軽減法は,クラスラベルを考慮しない教師なしの方法である.訓練データが利用できる場合,教師あり学習を行い,近傍法をもとにした分類や検索問題の精度向上を目指す. 本年度は,教師あり学習のなかでも半教師あり学習について,ハブネスの影響について調査,研究を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
これまでの研究で,類似度尺度を変換することにより,ハブネスを軽減する方法を提案した.現在は,これまでの提案手法を半教師あり学習の枠組みに組み込むことで,ハブネスの半教師あり学習における影響の調査を行った.具体的には,人工データを用いて,ハブネスが起こる状況でグラフ構築を行い,グラフにおけるハブネスの伝搬具合や,最終的な半教師あり学習の精度への影響の調査を行った. 機器の故障でデータ分析実験が遅れており、当初の想定より実験に時間を要するため,研究の進捗はやや遅れている.
|
Strategy for Future Research Activity |
我々はハブネス軽減法を半教師あり学習への枠組みに組み込む実験を小さいサイズの人工データを用いて行ってきた.今後は,まず,この人工データの結果から得られた考察をもとに,新たなモデルを構築を行う.そして,構築したモデルについて,人工データによる追加実験を行う.人工データのサイズやデータ発生の状況について,様々な条件を考慮に入れる.さらに,実データでの実験を行うことで,実用性に向けた有効性の検討を行う.
|
Causes of Carryover |
次年度使用額が生じた理由は,実験データの追加,使用予定機器の故障などにより,時間を要したため.使用計画としては,実験を行うにあたり,必要な計算機の購入,研究発表,論文投稿に使用する.
|