研究課題/領域番号 |
23700265
|
研究機関 | 大阪大学 |
研究代表者 |
楠木 祥文 大阪大学, 工学(系)研究科(研究院), 助教 (30588322)
|
キーワード | 機械学習 / データマイニング / ソフトコンピューティング |
研究概要 |
平成23,24年度では,名義的データ,つまり,名義的属性によって記述された対象集合において,識別可能性の観点から,対象部分集合間の類似度の研究を行っていた.しかし,提案した類似度は,理論的分析の困難性等,いくつかの欠点があったため,25年度では,提案した類似度の考え方を対象間の類似度に限定して考察する.すなわち,いくつかの識別すべき対象ペアが与えられている状況において,それを反映した対象間の類似度を定義する.具体的には,二つの対象x,yが与えられたとき,xとyの類似度は,事前に与えられた識別すべき対象ペアをすべて識別でき,かつ,xとyを完全に一致させる属性部分集合の全体または属性値の部分組の全体の総数で定義する.対象xとyの類似度は,属性部分集合または属性値の組の全体の空間に展開されたxとyの内積となっており,カーネル関数とみなすことができる.平成25年度では,このカーネル関数を用いた二つのデータ分析手法を提案した.一つは,名義データからif-thenルールを抽出する手法である.あるクラスCを推論するif-thenルールを抽出する場合,Cの対象と他のクラスの対象の各ペアによって識別すべきペアの集合を与え,Cの対象から,提案するカーネル関数を用いてクラスタを生成して,そのクラスタを決定ルールに変換する.従来手法に比較して,提案手法では少ない数の決定ルールでデータを記述することができた.この成果を国内会議と国際会議でそれぞれ1件ずつ発表した.もう一つは,制約付きクラスタリングへの応用である.制約付きクラスタリングでは,cannot-linkによって,同じクラスタに入るべきではない対象ペアが与えられるが,これらを識別すべき対象ペアと考え,カーネル関数を与える.これを用いた階層的クラスタリングでは,簡単なデータに対して想定通りの結果が得られた.この成果を国内会議1件で発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
主な原因として,平成23,24年の研究内容である,対象集合間類似度の理論の構築や類似度の計算法について,十分な成果が得られなかったことが挙げあられる.これに対して,25年度では,方向転換を行って,提案する類似度をカーネル関数と結びつけることで,その理論構築を進める.また,類似度(カーネル関数)の計算法についても,論理関数の双対化と関連していることがわかってきたので,そこで提案されている効率的なアルゴリズムが応用できる.
|
今後の研究の推進方策 |
平成25年度で提案したカーネル関数(類似度)を整理して,理論的枠組みを構築する.まず,名義的データの定義を再考察し,特に,一般的な複数の属性値を持つ属性(多値属性)を含むデータと,2値を取る属性(2値属性)のみからなるデータを区別する.また,多値属性を含むデータから2値属性のデータへの変換も導入する.これにより,部分定義論理関数やLAD (Logical Analysis of Data) の研究と関連付けける.特に部分論理関数の議論を基盤として,提案するカーネル関数の理論を展開する.次に,識別すべき対象ペアの集合によって与えられるカーネル関数について,属性部分集合と属性値の部分組の集合に基づくものの二つが考えられる.この二つを比較し,データ分析における特徴を整理する.次にカーネル関数の計算について考察する.カーネル関数の値は,識別すべき対象ペアとカーネル関数の引数となる対象ペアによって与えられる論理関数の真ベクトルの総数で定義される.今までの研究から,真ベクトルの数え上げは,論理関数の主節論理積形から主項論理和形を求める双対化の計算と関連していると予想される.特に論理関数が単調な場合において,双対化は主節論理積形と主項論理和形の大きさに対して擬多項式時間で計算できることが知られているため,カーネル関数に対応する論理関数を単調に限定した場合,カーネル関数の値がある程度速く計算できることが期待される.この考えに基づいたカーネル関数の計算法をプログラムで実装し,実際の計算速度を吟味する.最後に,提案するカーネル関数を使った,決定ルール抽出,制約付きクラスタリング,および,その他のカーネルトリックに基づくデータ分析手法を提案し,ベンチマークデータや現実データに適応し,その性能や特徴について考察する.これらの成果を学会誌等に投稿することで,本研究課題のまとめとしたい.
|
次年度の研究費の使用計画 |
次年度使用額は20,000円程度のプラスであり,旅費が計画した金額より多くなっているが,概ね予定通り使用している. 上述の「次年度使用額が生じた理由」の通り,概ね予定通り使用している.来年度も物品費(計算機,書籍等)や研究発表のための旅費などに使用する.
|