研究概要 |
本申請課題では,ラベルつきデータのみならず,大量にかつ容易に手に入れることができるラベルなしデータも利用する,半教師つき学習アルゴリズムを開発する.具体的には、ラベルつきデータが持つ「クラス情報」と,ラベルなしデータが持つ「データの分布情報」を合わせた学習アルゴリズムを開発する.このような半教師つき学習では,ラベルなしデータが持つ「データの分布情報」が重要である.つまり,データの集まりがどんな形状をしているかを知る必要がある.そこで,グラフを用いてデータの構造を知ることを考える.具体的には,各データを節点とし,データ間の類似度を枝としたグラフでデータを表現する.類似度はデータ間の距離で測り,距離が近いデータ同士に枝をつなぐ近傍グラフで表す.データを近傍グラフで表現すると,データが密集している部分は距離が近いデータが多いため,たくさん枝が張られることになり,データが密に存在しているということを,枝の密度が高いとして表すことができる.逆にデータが集まっていない部分は,枝もあまり張られていないため疎な部分として表すことができる.このように,データの密度を近傍グラフにおける枝の密度としてみなすことで,2点間の関係(距離)で求めていた問題を,データ全体における形状・密度という観点で問題を解くことに置き換えることができる.さらに,近傍グラフからクリーク(完全部分グラフ)を見つけることが、相関ルール発見におけるAprioriと対応付けることができる。本年度は,以上の考え方に基づいて「グラフに基づく半教師つき学習」として定式化した。
|