2016 Fiscal Year Annual Research Report
Integrated Utilization Technique of Diverse Data Based on Statistical Machine Learning Approaches
Project/Area Number |
16J11909
|
Research Institution | University of Shizuoka |
Principal Investigator |
山岸 祐己 静岡県立大学, 経営情報イノベーション研究科, 特別研究員(DC2)
|
Project Period (FY) |
2016-04-22 – 2018-03-31
|
Keywords | 機械学習 / アルゴリズム / 数理モデル / 最尤推定 / 尤度比検定 |
Outline of Annual Research Achievements |
統計的機械学習アプローチに基づく最尤推定の枠組みで,多種データを統合利活用する技術の開発を行い,その成果を論文にまとめた. まず,条件付き確率をリンクとした完全確率ネットワークにおける,尤度最大化問題の定式化とその解法,及びそれらに基づいたネットワーク生成法を提案し,国内外の学会と学会誌にて報告を行った.提案法は,観測データに対して考えられる様々な条件付き確率を組み合わせて容易に拡張することができるため,観光スポットのレビューデータを用いた重要拠点抽出や,動画のソーシャルタグデータを用いたタグの機能分析など,幅広い利用が期待される. 次に,多次元データオブジェクト集合におけるオブジェクトの特徴を,オブジェクト間距離分布の形状を用いて表現する方法を提案し,国内の学会にて報告を行った.提案法による実験結果は,多次元データクラスタリングの最終的な結果の推定や,クラスタリングの向き不向きといった判定は,与えられたデータの全てのデータ間距離を計算した時点で,ある程度実現できるという仮説を見出した.この仮説の証明が進めば,多次元データクラスタリングの計算時間の大幅な短縮が期待できる. そして,複数カテゴリーを有する時系列データの分析を目的として,スイッチング回帰(レジームスイッチング)を尤度最大化問題として定式化し,その効率的な解法と有効な視覚化手法について,国内の学会にて報告を行った.提案法は,大規模かつ雑多な時系列データを,有意な時刻区間で分割することにより,各カテゴリーの出現確率の変遷が分かるように変換するものである.この変換を用いた視覚化とクラスタリングは,レビューサイトのレビュー評点や,アクセスログデータなど,時間的変化が考えられる様々なデータに対して有効である.また,この内容については国外の学会での口頭発表も決定している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
統計的機械学習アプローチに基づく最尤推定の枠組みで、多種データを統合利活用する研究を課題とし取り組んだ.そして,大規模データによる実験結果と考察を土台に,ある程度の解精度や計算時間を保証するなど,理論的にも実用的にも優れたアルゴリズムを独自に考案し,手法として確立できた点が特に高く評価できると考えられる.提案法の基本性能に関する評価実験では,その有効性を実証するとともに,幾つかの興味深い知見も同時に導き出し,それらをまとめた博士論文は学内の「学長賞」を受賞した.さらに,複数カテゴリーを有する時系列データの分析に関する研究では,レジームスイッチングを尤度比最大化問題として提案し,提案法は人工データの真のモデルパラメータを精緻に推定できるとともに,大規模レビューデータにおける実験結果から,時系列データの新たな視覚化手法として大いに期待できる状況にある.よって,現在までの進捗状況は「おおむね順調に進展している」と評価する.
|
Strategy for Future Research Activity |
今後は,尤度最大化問題として帰着させたスイッチング回帰(レジームスイッチング)の解法の改良を行うとともに,新たな時系列データの変換技術として,時系列データの値や出現確率が,任意の時刻以前と以後で有意に増加(または減少)していることを明確にする手法を開発する予定である. レジームスイッチングの解法の改良については,現在採用している尤度比とカイ二乗検定の組み合わせによる処理から,AIC や BIC といった情報量基準による処理への変更を予定している.これにより,現在の提案法のアルゴリズム終了条件として必要とされているカイ二乗検定の危険率を設定する必要がなくなるため,与えられた観測データのサイズによって自動的に終了条件が設定される.すなわち,この改良手法は使用者に統計の基礎知識を要求することが無いため,幅広い活用が期待できる. 開発を予定している新たな時系列データの変換技術は,ラプラス分布を仮定した最尤推定の枠組みでデータを変換し,データ値の増減の時間的変化を明確にすることを目的としている.この手法は,データを任意の時刻以前と以後に分割したときの尤度の変化量をその時刻の指標とするものであるため,各時刻による分割の妥当性が視覚的に解釈可能となることが期待される.また,ラプラス分布の対数尤度最大化は絶対偏差の最小化であり,その最尤推定量は中央値となるため,頑健性が高い手法と言える.
|
Research Products
(8 results)