• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

半教師付き距離学習によるオンラインデータ分類

研究課題

研究課題/領域番号 23700167
研究機関豊橋技術科学大学

研究代表者

岡部 正幸  豊橋技術科学大学, 情報メディア基盤センター, 助教 (50362330)

キーワード距離学習 / クラスタアンサンブル / ブースティング
研究概要

本年度は,本課題の研究目的の2.「逐次更新可能な距離学習アルゴリズムの構築」に関する研究を主として行った.具体的には,計算コストの削減および制約ペアの取捨選択により効率的な距離学習の実行が可能なアルゴリズムの構築を行った.
まず,制約ペアを取捨選択する方法について,1) Co-trainingに基づく制約の自動拡張と2) Baggingに基づく能動的な制約ペアの選択の2つの方法について検証した.1)のCo-trainingに基づく制約の自動拡張方法では,2種類の特徴集合を利用した制約付きのクラスタアンサンブルをベースとして,各データペアが同一クラスタになる確率の高いものをmustリンク制約として,確率の低いものをcannotリンク制約として自動的に追加する方法を提案した.また,2)のBaggingに基づく能動的な制約ペアの選択では,1)と同じくクラスタアンサンブルをベースとして,各データペアが同一クラスタにグループ化されるかされないかの不確かさをエントロピーによって表現し,その推測が困難なものを人手によるラベル付け対象データペアとして選択する方法を提案した.1)と2)それぞれの手法について,実験によりその効果を確認した.
次に,計算コストを抑えた距離学習を行うため,Boostingベースのクラスタアンサンブルによる距離学習アルゴリズムを構築した.この方法では,AdaBoostアルゴリズムに基づいて,クラスタアンサンブルの各ステップで実行される制約付きK-meansでの制約充足順序を制御しながら全体として制約充足率の高い距離学習(カーネル行列の学習)を行うことができる.様々なデータを用いて実験を行った結果,本手法により従来手法と比較して計算コストおよび性能の両面において同等またはそれ以上の効果が得られることを確認した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本年度の研究計画は,研究目的の2.「逐次更新可能な距離学習アルゴリズムの構築」を行うため,距離学習における計算コストの問題と制約の取捨選択問題に取り組むことであった.具体的には,半正定値計画問題をベースとした計算コストが高く大規模データへの適用が難しい従来手法の改良またはそれに変わる新たな距離学習方法の構築と,制約集合から不要なものを除去し,期待効用の高いラベル付け対象制約候補を選別する方法を構築することである.
先に示したように,本年度の実績として,制約の取捨選択問題については,Co-trainingを利用して制約集合を擬似的に拡張する方法やBaggingに基づいて期待効用の高い制約ペア候補を選択する方法を開発することができた.また,計算コストの問題については,制約付きK-meansとAdaboostに基づくカーネル行列の学習方法を開発することで,コストの高い最適化処理を行う既存手法に比べ,同等以上の性能をより低い計算コストで達成することができた. これらの方法の可能性については更に精査する必要があるが,基礎的な開発・検証は完了しており,今後その改良に取り組んでいくことで成果を積み重ねていくことができると考えている.
以上のように,本年度までの研究計画はほぼ達成できており,研究全体としておおむね順調に進展していると判断した.

今後の研究の推進方策

H25年度は,研究目的の3.「実用システムへの応用展開」を達成すべく,当初の計画通り,「外れ値検出によるネットワークトラフィックデータからの異常発見」に関する応用例について研究を進めていく.
本研究では,本課題においてこれまで研究してきた半教師付き距離学習アルゴリズムに基づくクラスタリングをベースとした外れ値検出システムを構築し,ネットワークトラフィックデータからの異常発見に適用する.クラスタリングプログラムについては,これまでの基礎アルゴリズムをベースに外れ値検出に適したものにするために改良を加える予定である.ネットワークトラフィックデータの収集環境については,昨年度までに準備した機材を設置し実際の運用を早急に行う予定である.また,収集したデータを外れ値検出システムに入力するための前処理方法についても検討する.その他,外れ値検出システムにおいて人がインタラクティブに制約を与えることのできるシステムデザインについて検討し,システム操作インタフェースのプロトタイプを構築する.
構築したシステムの性能評価は,既存の異常検知システムを正解データとして見立てて行う予定である.また,これらの結果を踏まえ学習アルゴリズムの改良を行なう.

次年度の研究費の使用計画

H25年度は, 外れ値検出システムの評価実験などに利用する大画面ディスプレイとノートパソコン,トラフィックデータを保存するための追加ストレージなどを購入する予定である.
また,前年度および当該年度の成果発表を行うため,国内外の研究会議への参加経費(参加費,旅費),また論文発表のための経費(論文掲載費)に充当する予定である.

  • 研究成果

    (5件)

すべて 2012

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件)

  • [雑誌論文] 制約付きグラフカットによる逐次クラスタリング2012

    • 著者名/発表者名
      岡部正幸, 山田誠二
    • 雑誌名

      人工知能学会論文誌

      巻: Vol.27, No.3 ページ: 193-203

    • DOI

      10.4304/jetwi.4.1.43-50

    • URL

      http://dx.doi.org/10.1527/tjsai.27.193

    • 査読あり
  • [学会発表] Clustering by Learning Constraints Priorities2012

    • 著者名/発表者名
      Masayuki Okabe and Seiji Yamada
    • 学会等名
      The IEEE International Conference on Data Mining (ICDM2012)
    • 発表場所
      シェラトンホテル(ブリュッセル,ベルギー)
    • 年月日
      20121213-20121213
  • [学会発表] Clustering with Extended Constraints by Co-Training2012

    • 著者名/発表者名
      Masayuki Okabe and Seiji Yamada
    • 学会等名
      International Workshop on Intelligent Web Interaction
    • 発表場所
      フィッシャーマンズワーフ(マカオ,中国)
    • 年月日
      20121204-20121204
  • [学会発表] Active Sampling for Constrained Clustering2012

    • 著者名/発表者名
      Masayuki Okabe and Seiji Yamada
    • 学会等名
      International Conference on Soft Computing and Intelligent Systems (SCIS&ISIS 2012)
    • 発表場所
      神戸国際会議場(兵庫県,神戸市)
    • 年月日
      20121121-20121121
  • [学会発表] ブースティングに基づく制約付きK-meansアルゴリズム2012

    • 著者名/発表者名
      岡部正幸, 山田誠二
    • 学会等名
      第26回人工知能学会全国大会
    • 発表場所
      山口県教育会館(山口県,山口市)
    • 年月日
      20120615-20120615

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi