研究課題/領域番号 |
23700167
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
岡部 正幸 豊橋技術科学大学, 情報メディア基盤センター, 助教 (50362330)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 距離学習 / 制約付きクラスタリング |
研究概要 |
本年度は,当該テーマの研究課題である,制約ペアが少数しか利用できない場合における逐次更新可能な距離学習アルゴリズムの構築に向けて,1)ペアワイズ分類による制約集合の拡張方法,および,2)能動学習による期待効用の高い制約ペアの選択方法に関する研究を行った.まず,1)については,既知の制約集合を訓練データとしたペアワイズ分類学習を行うことにより,任意のデータペアに制約ラベルを割り当てる方法を提案した.この研究では,データペアを表現する特徴ベクトルの生成方法として,ペアを構成する2つのデータの元々の特徴ベクトルの各次元の差の絶対値を新しいベクトルの要素とする方法を提案した.また,この新しい特徴ベクトルとサポートベクトルマシンにより生成した判別器を用いてすべてのデータペアに制約ラベルを割り振り,その結果から制約付きクラスタリングを行った.実験結果からはいくつかのデータセットにおいて提案手法による効果が確認できた.次に,2)については,距離学習における制約選択を行うための戦略獲得を目的として,人が制約を逐次的に選択・追加し,その効果を対話的に確認しながら分類学習を行えるシステムを試作した.このシステムの目的は主に2つあり,1)データの近接性をGUIを通して視覚的に確認することができ,マウス操作によってデータペアに用意に制約を付与することができるようにすること,2)制約追加による分析結果を逐次的に確認することができる対話的環境の提供により,選択に関する戦略のヒントを得やすくさせることである.この試作システムを用いた実験では,人間の制約選択行動を観察することにより,ランダム選択よりも良い選択を行うための戦略を獲得できる可能性があることが確認できた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,3つの主な研究目的の中の2つ,1)半教師付き距離学習アルゴリズムの構築と2)逐次更新可能な距離学習アルゴリズムの構築に関して研究を進めることができ,研究全体としておおむね順調に進展している.1)については,実用システムにおいて距離学習を利用する際に問題となる,利用可能な制約数が少数の場合における効率的な学習方法を提案することが目的となる.より具体的には,ア)既知の制約集合を近傍データへ伝播させる方法とイ)ペアワイズ分類を利用した擬似的な制約ペアの追加方法を提案することの2つの目的を掲げている.ア)については,既に基本アルゴリズムは構築済みであり,パラメータの調整方法などについて更に研究を進めている.また,イ)についても,研究実績の前半に記述したように基本アルゴリズムは構築済みであり,より広範囲なデータにおいてその効果を検証している.2)についても,主な目的は,ウ)距離学習をデータまたは制約が追加された度に逐次的に更新するための再学習アルゴリズムの構築と,エ)期待効用の高い制約選択を行うための方法を提案することの2つに分けられるが,今年度は後者のエ)について,研究実績の後半に記述したように,対話的な制約選択システムを構築し,そのシステムを利用して人間の選択行動を観察することで,より良い制約選択を行うための戦略形成のヒントを得ており,具体的な選択アルゴリズムの構築に向けて研究が進捗している.以上のように,3つの大きな目的のうちの2つについて70%程度達成できており,研究全体としておおむね順調に進展していると判断した.
|
今後の研究の推進方策 |
今後は,当初の計画通り,1)逐次更新可能な距離学習アルゴリズムの構築と,2)外れ値検出によるネットワークトラフィックデータからの異常発見への応用について研究を進めていく.1)については,距離学習における計算コスト削減方法として,最適化問題の近似解法,特に変換行列の半正定値性についての検証処理の高速化について検討するとともに,ヒューリスティック解法を弱学習器として用いたブースティングによるアプローチの検討も合わせて行なっていく.ブースティングについては,既に基礎的な検証を行なっている段階で,各種データにおける本格的な性能の検証と改良に取り組んでいく予定である.また,距離学習結果に大きく影響を与える制約集合の選別についても,前年度の研究結果を基にアルゴリズムとしての具体化に取り組む.2)については,異常発見を行う対象となるネットワークトラフィックデータの収集環境の整備を行うと同時に,距離学習を適用するために必要な種々の前処理について検討していく.また,学習アルゴリズムの性能評価のための正解データを作成するため,既存の異常検知システムを設置し,試験的に稼働させる予定である.
|
次年度の研究費の使用計画 |
H24年度は,ネットワークトラフィックデータからの異常発見を行うための,環境整備として,大量のトラフィックデータの収集とデータの加工を高速に行うための計算機を数台購入する予定である.また,前年度および当該年度の成果発表を行うため,国内外の研究会議への参加経費(参加費,旅費),また論文発表のための経費(論文掲載費)に充当する予定である.
|