研究概要 |
本年度は,高次元データのハブ節点に着目し研究を行った.ハブとは,データ集合中で,他の数多くのオブジェクトと類似したオブジェクトのことである.自然言語データをはじめとする高次元データでは,本質的にハブが存在する可能性が高いこと(「次元の呪い」と総称される現象の一つである)が報告されている(Radovanovic et al.2010).グラフに基づく手法もその影響を大きく受けるため,これに関する更なる調査を行った.まず,一般のグラフに基づく半教師あり法(Zhu et al.およびZhou et al.の各種ラベル伝搬法など)は,データがグラフとして表現されていることを仮定しており,その際にはk近傍グラフを用いることがほとんどである.われわれは,k近傍グラフがハブを多く出現させることを指摘し,一方,相互k近傍グラフと呼ばれるグラフが相対的にハブを軽減することを実験によって示した.さらに,KleinbergによるHITSと呼ばれるグラフ節点の重要度算出(ランキング)手法と,自然言語処理分野で用いられる知識獲得法の一種であるEspressoブートストラッピング法との類似性にれは前年度・前前年度の本研究の一環として指摘し・発表した)に基づき,HITS上位オブジェクトをトピックドリフト(ブートストラッピングをはじめとするself-training法で,本来獲得したいクラス以外のオブジェクトばかりが獲得されてしまう問題)の予防に積極的に活用する方法を提案し,その有効性を実験によって示した.なお,HITS法で上位にランキングされる事例は,ハブの一種とみなすことができ,従来その負の側面が指摘されてきたが本研究では,ハブを,一種の「負例」として活用した.
|