研究課題/領域番号 |
26330261
|
研究機関 | 青山学院大学 |
研究代表者 |
大原 剛三 青山学院大学, 理工学部, 准教授 (30294127)
|
研究分担者 |
斉藤 和巳 静岡県立大学, 経営情報学部, 教授 (80379544)
木村 昌弘 龍谷大学, 理工学部, 教授 (10396153)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 機械学習 / 統計数学 / 確率モデル / 予測シミュレーション / 知識発見 |
研究実績の概要 |
本研究は,大規模データのダイナミクスをモデル化する確率過程を対象に,限定された試行回数の下でもその確率過程に対するシミュレーション結果の精度を保証する新たな予測シミュレーションパラダイムを機械学習の枠組みで確立することを目的としている.具体的には,社会ネットワーク上の情報拡散モデルを主な対象とし,統計的機械学習におけるリサンプリング法などの理論を基礎として,予測シミュレーションの精度を保証する理論的枠組の構築,およびそれに基づくシミュレーション法の確立を目指す. 研究期間初年度は,当初の予定通り大規模社会ネットワークデータの収集と整備,および予測シミュレーションの精度を保証するための理論的枠組の検討を統計的機械学習の観点から進めた.データに関しては,Twitterのつぶやきデータを収集するとともに,その中からリツイート系列を精緻に切り出すことで大規模な情報拡散ネットワークと実拡散系列を収集する技術基盤を構築した.予測シミュレーションの予測精度保障に関する理論的枠組みに関しては,リサンプリング法の1つであるleave-N-out法を基礎とし,複数回のシミュレーション結果から抽出した一定数の結果に基づきその時点でのシミュレーション結果の精度を推定する手法を提案した.社会ネットワーク中のノードがもつ影響度の推定を対象とした実験では,これまで安定した精度を得るために盲目的に1万~10万回実行していたシミュレーションを高影響度ノードの抽出という目的の下では100回程度に減らせる可能性を示した.今後,より多様なデータに適用し,その一般性を検証する必要があるものの,この結果はシミュレーションに基づいたデータ分析の効率を改善する上で,その意義は大きい.また,社会ネットワークにおけるノードの重要性指標であるノード中心性の計算問題にも同様の考え方を適用し,その有効性を実験的に示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実データの収集に関しては,その収集基盤を確立し基本統計量を計算し,確率モデルの妥当性の検証まで進めており,ほぼ当初の計画通りに進んでいる.予測シミュレーションの予測精度保障に関する理論的枠組みの検討に関しては,リサンプリング法に基づく手法が最も先行しているが,全体としてはほぼ予定通りの進行状況となっている.
|
今後の研究の推進方策 |
これまでの検討結果から,リサンプリング法に基づく手法がシミュレーションの精度保障の中心的な枠組みになり得ると考えられるため,今後は,ベイズ学習,PAC学習に基づく枠組みを含めてそれらを独立に検討するのではなく,少ないシミュレーション回数の下で高い精度を保証するという目的の下,それらを総合的・相補的に利用する枠組みを検討する.
|
次年度使用額が生じた理由 |
当初予定より出張旅費が安く済んだこと,およびアルバイト学生の確保数が当初の見込みより少なかったために謝金の支出が少なかったことにより,次年度使用額として約20万円残ることとなった.
|
次年度使用額の使用計画 |
次年度は,上記の次年度使用額のうち約10万円分を含めた100万円程度を研究代表者・分担者3名分の旅費に充当し,それに伴う学会参加費として20万円を予定している.次年度使用額の残り約10万円を含めた20万円程度をアルバイト謝金に充当しデータの整備を加速させ,次年度中に完了させるとともに,最終年度におけるアクティブマイニング的知識発見法への応用を視野に入れたシステム構築のための計算機の導入に30万円ほどの利用を予定している.
|