研究概要 |
本課題の成果として,レート歪み理論に基づく正規化学習手法(RD学習)の拡張により,機械学習における先端的かつ実用的な問題への応用手法を開発した. まず,RD学習を時系列データの主要なモデル(線形回帰モデル・多変量自己回帰モデル)に拡張する定式化を行った.これにより,多項回帰モデルやマルコフモデルで記述される動的システムに対する異常状態の検出手法を実現した.この手法の効果として遺伝子ネットワークで観測される発現時系列を対象として従来手法よりも有意に高い精度・再現率で活性化状態を検出できることを示した.この成果は機械学習・データマイニングの主要国際会議であるKDDにて発表した. 時系列データへの応用に関してはさらにマイクロアレーデータ,金融時系列データ,自律移動ロボット軌跡データ等を整備し,効果的なインスタンスベース異常検出手法を開発している.これは時系列データに内在する多粒度・多視点を同時に考慮した手法であり,データスカッシング・アンサンブル学習等の組み合わせによって効率的なオンラインの異常発見手法を開発した.この成果は国内の研究会にて発表し,データマイニングの主要国際会議に投稿した. 一方,RD学習の理論を分布が独立かつ均一でないデータを翻訳学習問題設定において利用する拡張を行い,教師無し学習に対する翻訳学習の方法論を提案した.主要な成果として,異種情報源から収集した文書集合に対するクラスタリングを実装し,従来手法よりも有意に高い精度や再現率で文書クラスタを発見できることを示した.さらに,RD学習の枠組みの自然な拡張により幾何的な構造を正規化に取り入れる方法論を示した.これを検証するために学術文献データをもとにタイトル・著者・トピックに関するグラフ構造情報を付随したベンチマークを準備し,提案手法ItGAを適用した.ItGAはトピック発見に関して代表的なPLSA,LDAといった従来手法を上回る性能を示したほか,次元縮約法としても文書に関する重要な特徴を抽出できることを示した.これらの成果はデータマイニングの主要国際会議であるICDMで発表し,さらに最新の成果についても主要国際会議に投稿している.
|