2015 Fiscal Year Annual Research Report

未知環境から仮説を構築・推論するフレキシブルな認知的強化学習アルゴリズム

Research Project

Project/Area Number	14J10453
Research Institution	Tokyo Denki University
Principal Investigator	甲野佑東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)
Project Period (FY)	2014-04-25 – 2016-03-31
Keywords	満足化 / 強化学習 / 意思決定 / 速さと正確さのトレードオフ
Outline of Annual Research Achievements	本研究課題は人間のフレキシブルな意思決定に習うことで，学習のために膨大なサンプリング数（試行時間）を必要とする強化学習の問題に対処することを目的としていた．このような問題は試行時間が短く済む『速さ』と結果の『正確さ』の間にあるトレードオフに起因する．本研究では具体的に人間の因果関係の強さの推定と高い相関を持つ価値関数（LS）を用いることで，意思決定のトレードオフに対処しようとした．前年度の研究により， LS 価値関数は人間の満足化方策と関連が強いために，正確さには固執しないフレキシブルさを実現しているということがわかり，この観点から LS 価値関数を拡張した（LS-VR，LSX）．満足化は基準値という目的値を設定することによって，正確さへの固執を緩めることでトレードオフを回避している．また前述の LS の拡張価値関数では基準値を適切に設定することで，正確さへの固執，すなわち最適化を非常に素早くできることがわかった．今年度の成果の一つは以上の結果を英文ジャーナルとして投稿したことにある．また満足化の利点として非定常環境に対する対処が最適化よりも優れており，非定常環境に対処する既存のメタバンディットアルゴリズムより良い成績を有することを示した．前年度までの LS 価値関数は即時的で確率的な報酬の生起／不生起のみを扱う多本腕バンディット問題のみを扱っていた．本年度は長期的な試行錯誤を必要とする報酬や複雑な環境を想定したより一般的な強化学習へのLS価値関数の拡張を行った（RLLS 価値関数）．具体的には複雑な物理ダイナミクスを持つ運動制御課題（大車輪運動）に RLLS 価値関数を用いて行い，他のアルゴリズムが非常に狭い範囲でのパラメータでしか正しい運動制御を学習できないのに対して， RLLS 価値関数は広いパラメータの範囲で，かつ素早く学習できる事がわかった．
Research Progress Status	27年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	27年度が最終年度であるため、記入しない。

Research Products
(13 results)

All 2016 2015

All Journal Article (7 results) (of which Peer Reviewed: 2 results) Presentation (6 results)

[Journal Article] 認知特性を実装した価値関数による非定常環境への適応2016
- Author(s)
  甲野佑, 高橋達二
- Journal Title
  
  情報処理学会第78回全国大会予稿集
  
  Volume: 1 Pages: 77-78
[Journal Article] Robotic Action Acquisition with Cognitive Biases in Coarse-grained State Space2016
- Author(s)
  Daisuke Uragami, Yu Kohno, Tatsuji Takahashi
- Journal Title
  
  BioSystems
  
  Volume: 印刷中 Pages: 印刷中
- Peer Reviewed
[Journal Article] 満足化価値関数を用いて自律的に探索する強化学習手法2016
- Author(s)
  牛田有哉, 甲野佑, 高橋達二
- Journal Title
  
  情報処理学会第78回全国大会予稿集
  
  Volume: 1 Pages: 351-352
[Journal Article] A cognitive satisficing strategy for bandit problems2015
- Author(s)
  Yu Kohno, Tatsuji Takahashi
- Journal Title
  
  International Journal of Parallel Emergent and Distributed Systems
  
  Volume: 1 Pages: 1-11
- DOI
  10.1080/17445760.2015.1075531.
- Peer Reviewed
[Journal Article] 満足化とその基準の動的な更新による強化学習の促進2015
- Author(s)
  甲野佑, 高橋達二
- Journal Title
  
  SAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集
  
  Volume: 1 Pages: 1-4
[Journal Article] 限定合理性に触発された強化学習法によるロボット運動学習2015
- Author(s)
  水戸亜友美, 牛田有哉, 朝倉勇護, 甲野佑, 横須賀聡, 浦上大輔, 高橋達二
- Journal Title
  
  JSAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集
  
  Volume: 1 Pages: 1-4
[Journal Article] 不確実性の下での満足化を通じた最適化2015
- Author(s)
  高橋達二, 大用庫智, 甲野佑, 横須賀聡
- Journal Title
  
  JSAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集
  
  Volume: 1 Pages: 1-4
[Presentation] 認知特性を実装した価値関数による非定常環境への適応2016
- Author(s)
  甲野佑, 高橋達二
- Organizer
  情報処理学会第78回全国大会
- Place of Presentation
  慶応義塾大学矢上キャンパス, 神奈川県, 横浜市
- Year and Date
  2016-03-12 – 2016-03-12
[Presentation] 満足化価値関数を用いて自律的に探索する強化学習手法2016
- Author(s)
  牛田有哉, 甲野佑, 高橋達二
- Organizer
  情報処理学会第78回全国大会予稿集
- Place of Presentation
  慶応義塾大学　矢上キャンパス, 神奈川県, 横浜市
- Year and Date
  2016-03-11 – 2016-03-11
[Presentation] 認知的満足化による強化学習アルゴリズム2016
- Author(s)
  甲野佑, 高橋達二
- Organizer
  第10回内部観測研究会
- Place of Presentation
  東北大学電気通信研究所, 宮城県, 仙台市
- Year and Date
  2016-02-27 – 2016-02-27
[Presentation] 満足化とその基準の動的な更新による強化学習の促進2015
- Author(s)
  甲野佑, 高橋達二
- Organizer
  2015年度人工知能学会全国大会（第29回）
- Place of Presentation
  公立はこだて未来大学, 北海道, 函館
- Year and Date
  2015-05-13 – 2015-05-13
[Presentation] 限定合理性に触発された強化学習法によるロボット運動学習2015
- Author(s)
  水戸亜友美, 牛田有哉, 朝倉勇護, 甲野佑, 横須賀聡, 浦上大輔, 高橋達二
- Organizer
  2015年度人工知能学会全国大会（第29回）
- Place of Presentation
  公立はこだて未来大学, 北海道, 函館
- Year and Date
  2015-05-13 – 2015-05-13
[Presentation] 不確実性の下での満足化を通じた最適化2015
- Author(s)
  高橋達二, 大用庫智, 甲野佑, 横須賀聡
- Organizer
  2015年度人工知能学会全国大会（第29回）
- Place of Presentation
  公立はこだて未来大学, 北海道, 函館
- Year and Date
  2015-05-13 – 2015-05-13

2015 Fiscal Year Annual Research Report

未知環境から仮説を構築・推論するフレキシブルな認知的強化学習アルゴリズム

Principal Investigator

甲野 佑 東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)

Research Products

[Journal Article] 認知特性を実装した価値関数による非定常環境への適応2016

Author(s)

Journal Title

[Journal Article] Robotic Action Acquisition with Cognitive Biases in Coarse-grained State Space2016

Author(s)

Journal Title

[Journal Article] 満足化価値関数を用いて自律的に探索する強化学習手法2016

Author(s)

Journal Title

[Journal Article] A cognitive satisficing strategy for bandit problems2015

Author(s)

Journal Title

DOI

[Journal Article] 満足化とその基準の動的な更新による強化学習の促進2015

Author(s)

Journal Title

[Journal Article] 限定合理性に触発された強化学習法によるロボット運動学習2015

Author(s)

Journal Title

[Journal Article] 不確実性の下での満足化を通じた最適化2015

Author(s)

Journal Title

[Presentation] 認知特性を実装した価値関数による非定常環境への適応2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 満足化価値関数を用いて自律的に探索する強化学習手法2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 認知的満足化による強化学習アルゴリズム2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 満足化とその基準の動的な更新による強化学習の促進2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 限定合理性に触発された強化学習法によるロボット運動学習2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 不確実性の下での満足化を通じた最適化2015

Author(s)

Organizer

Place of Presentation

Year and Date

甲野佑東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)