• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実績報告書

未知環境から仮説を構築・推論するフレキシブルな認知的強化学習アルゴリズム

研究課題

研究課題/領域番号 14J10453
研究機関東京電機大学

研究代表者

甲野 佑  東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)

研究期間 (年度) 2014-04-25 – 2016-03-31
キーワード満足化 / 強化学習 / 意思決定 / 速さと正確さのトレードオフ
研究実績の概要

本研究課題は人間のフレキシブルな意思決定に習うことで,学習のために膨大なサンプリング数(試行時間)を必要とする強化学習の問題に対処することを目的としていた.このような問題は試行時間が短く済む『速さ』と結果の『正確さ』の間にあるトレードオフに起因する.本研究では具体的に人間の因果関係の強さの推定と高い相関を持つ価値関数(LS)を用いることで,意思決定のトレードオフに対処しようとした.
前年度の研究により, LS 価値関数は人間の満足化方策と関連が強いために,正確さには固執しないフレキシブルさを実現しているということがわかり,この観点から LS 価値関数を拡張した(LS-VR,LSX).満足化は基準値という目的値を設定することによって,正確さへの固執を緩めることでトレードオフを回避している.また前述の LS の拡張価値関数では基準値を適切に設定することで,正確さへの固執,すなわち最適化を非常に素早くできることがわかった.今年度の成果の一つは以上の結果を英文ジャーナルとして投稿したことにある.また満足化の利点として非定常環境に対する対処が最適化よりも優れており,非定常環境に対処する既存のメタバンディットアルゴリズムより良い成績を有することを示した.
前年度までの LS 価値関数は即時的で確率的な報酬の生起/不生起のみを扱う多本腕バンディット問題のみを扱っていた.本年度は長期的な試行錯誤を必要とする報酬や複雑な環境を想定したより一般的な強化学習へのLS価値関数の拡張を行った(RLLS 価値関数).具体的には複雑な物理ダイナミクスを持つ運動制御課題(大車輪運動)に RLLS 価値関数を用いて行い,他のアルゴリズムが非常に狭い範囲でのパラメータでしか正しい運動制御を学習できないのに対して, RLLS 価値関数は広いパラメータの範囲で,かつ素早く学習できる事がわかった.

現在までの達成度 (段落)

27年度が最終年度であるため、記入しない。

今後の研究の推進方策

27年度が最終年度であるため、記入しない。

  • 研究成果

    (13件)

すべて 2016 2015

すべて 雑誌論文 (7件) (うち査読あり 2件) 学会発表 (6件)

  • [雑誌論文] 認知特性を実装した価値関数による非定常環境への適応2016

    • 著者名/発表者名
      甲野佑, 高橋達二
    • 雑誌名

      情報処理学会第78回全国大会予稿集

      巻: 1 ページ: 77-78

  • [雑誌論文] Robotic Action Acquisition with Cognitive Biases in Coarse-grained State Space2016

    • 著者名/発表者名
      Daisuke Uragami, Yu Kohno, Tatsuji Takahashi
    • 雑誌名

      BioSystems

      巻: 印刷中 ページ: 印刷中

    • 査読あり
  • [雑誌論文] 満足化価値関数を用いて自律的に探索する強化学習手法2016

    • 著者名/発表者名
      牛田有哉, 甲野佑, 高橋達二
    • 雑誌名

      情報処理学会第78回全国大会予稿集

      巻: 1 ページ: 351-352

  • [雑誌論文] A cognitive satisficing strategy for bandit problems2015

    • 著者名/発表者名
      Yu Kohno, Tatsuji Takahashi
    • 雑誌名

      International Journal of Parallel Emergent and Distributed Systems

      巻: 1 ページ: 1-11

    • DOI

      10.1080/17445760.2015.1075531.

    • 査読あり
  • [雑誌論文] 満足化とその基準の動的な更新による強化学習の促進2015

    • 著者名/発表者名
      甲野佑, 高橋達二
    • 雑誌名

      SAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集

      巻: 1 ページ: 1-4

  • [雑誌論文] 限定合理性に触発された強化学習法によるロボット運動学習2015

    • 著者名/発表者名
      水戸亜友美, 牛田有哉, 朝倉勇護, 甲野佑, 横須賀聡, 浦上大輔, 高橋達二
    • 雑誌名

      JSAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集

      巻: 1 ページ: 1-4

  • [雑誌論文] 不確実性の下での満足化を通じた最適化2015

    • 著者名/発表者名
      高橋達二, 大用庫智, 甲野佑, 横須賀聡
    • 雑誌名

      JSAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集

      巻: 1 ページ: 1-4

  • [学会発表] 認知特性を実装した価値関数による非定常環境への適応2016

    • 著者名/発表者名
      甲野佑, 高橋達二
    • 学会等名
      情報処理学会第78回全国大会
    • 発表場所
      慶応義塾大学 矢上キャンパス, 神奈川県, 横浜市
    • 年月日
      2016-03-12 – 2016-03-12
  • [学会発表] 満足化価値関数を用いて自律的に探索する強化学習手法2016

    • 著者名/発表者名
      牛田有哉, 甲野佑, 高橋達二
    • 学会等名
      情報処理学会第78回全国大会予稿集
    • 発表場所
      慶応義塾大学 矢上キャンパス, 神奈川県, 横浜市
    • 年月日
      2016-03-11 – 2016-03-11
  • [学会発表] 認知的満足化による強化学習アルゴリズム2016

    • 著者名/発表者名
      甲野佑, 高橋達二
    • 学会等名
      第10回内部観測研究会
    • 発表場所
      東北大学電気通信研究所, 宮城県, 仙台市
    • 年月日
      2016-02-27 – 2016-02-27
  • [学会発表] 満足化とその基準の動的な更新による強化学習の促進2015

    • 著者名/発表者名
      甲野佑, 高橋達二
    • 学会等名
      2015年度人工知能学会全国大会(第29回)
    • 発表場所
      公立はこだて未来大学, 北海道, 函館
    • 年月日
      2015-05-13 – 2015-05-13
  • [学会発表] 限定合理性に触発された強化学習法によるロボット運動学習2015

    • 著者名/発表者名
      水戸亜友美, 牛田有哉, 朝倉勇護, 甲野佑, 横須賀聡, 浦上大輔, 高橋達二
    • 学会等名
      2015年度人工知能学会全国大会(第29回)
    • 発表場所
      公立はこだて未来大学, 北海道, 函館
    • 年月日
      2015-05-13 – 2015-05-13
  • [学会発表] 不確実性の下での満足化を通じた最適化2015

    • 著者名/発表者名
      高橋達二, 大用庫智, 甲野佑, 横須賀聡
    • 学会等名
      2015年度人工知能学会全国大会(第29回)
    • 発表場所
      公立はこだて未来大学, 北海道, 函館
    • 年月日
      2015-05-13 – 2015-05-13

URL: 

公開日: 2016-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi