未知環境から仮説を構築・推論するフレキシブルな認知的強化学習アルゴリズム

研究課題

研究課題/領域番号	14J10453
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
研究分野	ソフトコンピューティング
研究機関	東京電機大学
研究代表者	甲野佑東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)
研究期間 (年度)	2014-04-25 – 2016-03-31
研究課題ステータス	完了 (2015年度)
配分額 *注記	1,700千円 (直接経費: 1,700千円) 2015年度: 800千円 (直接経費: 800千円) 2014年度: 900千円 (直接経費: 900千円)
キーワード	満足化 / 強化学習 / 意思決定 / 速さと正確さのトレードオフ / 対称性推論
研究実績の概要	本研究課題は人間のフレキシブルな意思決定に習うことで，学習のために膨大なサンプリング数（試行時間）を必要とする強化学習の問題に対処することを目的としていた．このような問題は試行時間が短く済む『速さ』と結果の『正確さ』の間にあるトレードオフに起因する．本研究では具体的に人間の因果関係の強さの推定と高い相関を持つ価値関数（LS）を用いることで，意思決定のトレードオフに対処しようとした．前年度の研究により， LS 価値関数は人間の満足化方策と関連が強いために，正確さには固執しないフレキシブルさを実現しているということがわかり，この観点から LS 価値関数を拡張した（LS-VR，LSX）．満足化は基準値という目的値を設定することによって，正確さへの固執を緩めることでトレードオフを回避している．また前述の LS の拡張価値関数では基準値を適切に設定することで，正確さへの固執，すなわち最適化を非常に素早くできることがわかった．今年度の成果の一つは以上の結果を英文ジャーナルとして投稿したことにある．また満足化の利点として非定常環境に対する対処が最適化よりも優れており，非定常環境に対処する既存のメタバンディットアルゴリズムより良い成績を有することを示した．前年度までの LS 価値関数は即時的で確率的な報酬の生起／不生起のみを扱う多本腕バンディット問題のみを扱っていた．本年度は長期的な試行錯誤を必要とする報酬や複雑な環境を想定したより一般的な強化学習へのLS価値関数の拡張を行った（RLLS 価値関数）．具体的には複雑な物理ダイナミクスを持つ運動制御課題（大車輪運動）に RLLS 価値関数を用いて行い，他のアルゴリズムが非常に狭い範囲でのパラメータでしか正しい運動制御を学習できないのに対して， RLLS 価値関数は広いパラメータの範囲で，かつ素早く学習できる事がわかった．
現在までの達成度 (段落)	27年度が最終年度であるため、記入しない。
今後の研究の推進方策	27年度が最終年度であるため、記入しない。

報告書

(2件)

2015 実績報告書
2014 実績報告書

研究成果
(19件)

すべて 2016 2015 2014

すべて雑誌論文 (9件) (うち査読あり 2件、オープンアクセス 2件、謝辞記載あり 1件) 学会発表 (10件)

[雑誌論文] 認知特性を実装した価値関数による非定常環境への適応2016
- 著者名/発表者名
  甲野佑, 高橋達二
- 雑誌名
  
  情報処理学会第78回全国大会予稿集
  
  巻: 1 ページ: 77-78
- NAID
  170000163318
- 関連する報告書
  2015 実績報告書
[雑誌論文] Robotic Action Acquisition with Cognitive Biases in Coarse-grained State Space2016
- 著者名/発表者名
  Daisuke Uragami, Yu Kohno, Tatsuji Takahashi
- 雑誌名
  
  BioSystems
  
  巻: 印刷中
- 関連する報告書
  2015 実績報告書
- 査読あり
[雑誌論文] 満足化価値関数を用いて自律的に探索する強化学習手法2016
- 著者名/発表者名
  牛田有哉, 甲野佑, 高橋達二
- 雑誌名
  
  情報処理学会第78回全国大会予稿集
  
  巻: 1 ページ: 351-352
- NAID
  170000163449
- 関連する報告書
  2015 実績報告書
[雑誌論文] A cognitive satisficing strategy for bandit problems2015
- 著者名/発表者名
  Yu Kohno, Tatsuji Takahashi
- 雑誌名
  
  International Journal of Parallel Emergent and Distributed Systems
  
  巻: 1 号: 2 ページ: 1-11
- DOI
  10.1080/17445760.2015.1075531
- 関連する報告書
  2015 実績報告書
- 査読あり
[雑誌論文] 満足化とその基準の動的な更新による強化学習の促進2015
- 著者名/発表者名
  甲野佑, 高橋達二
- 雑誌名
  
  SAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集
  
  巻: 1 ページ: 1-4
- NAID
  130007423146
- 関連する報告書
  2015 実績報告書
[雑誌論文] 限定合理性に触発された強化学習法によるロボット運動学習2015
- 著者名/発表者名
  水戸亜友美, 牛田有哉, 朝倉勇護, 甲野佑, 横須賀聡, 浦上大輔, 高橋達二
- 雑誌名
  
  JSAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集
  
  巻: 1 ページ: 1-4
- NAID
  130007424937
- 関連する報告書
  2015 実績報告書
[雑誌論文] 不確実性の下での満足化を通じた最適化2015
- 著者名/発表者名
  高橋達二, 大用庫智, 甲野佑, 横須賀聡
- 雑誌名
  
  JSAI 2015 (2015年度人工知能学会全国大会(第29回)) 予稿集
  
  巻: 1 ページ: 1-4
- NAID
  130007425178
- 関連する報告書
  2015 実績報告書
[雑誌論文] 柔軟な意思決定機能のための認知特性の応用と検証2014
- 著者名/発表者名
  甲野佑，高橋達二
- 雑誌名
  
  人工知能学会全国大会論文集
  
  巻: 人工知能学会全国大会論文集28 ページ: 1-4
- NAID
  130007423708
- 関連する報告書
  2014 実績報告書
- オープンアクセス
[雑誌論文] 未知で不確実な環境に対する認知特性の意味と応用2014
- 著者名/発表者名
  甲野佑，高橋達二
- 雑誌名
  
  JCSS Japanese Congnitive Science Society
  
  巻: 31 ページ: 777-782
- NAID
  40020244734
- 関連する報告書
  2014 実績報告書
- オープンアクセス / 謝辞記載あり
[学会発表] 認知特性を実装した価値関数による非定常環境への適応2016
- 著者名/発表者名
  甲野佑, 高橋達二
- 学会等名
  情報処理学会第78回全国大会
- 発表場所
  慶応義塾大学矢上キャンパス, 神奈川県, 横浜市
- 年月日
  2016-03-12
- 関連する報告書
  2015 実績報告書
[学会発表] 満足化価値関数を用いて自律的に探索する強化学習手法2016
- 著者名/発表者名
  牛田有哉, 甲野佑, 高橋達二
- 学会等名
  情報処理学会第78回全国大会予稿集
- 発表場所
  慶応義塾大学　矢上キャンパス, 神奈川県, 横浜市
- 年月日
  2016-03-11
- 関連する報告書
  2015 実績報告書
[学会発表] 認知的満足化による強化学習アルゴリズム2016
- 著者名/発表者名
  甲野佑, 高橋達二
- 学会等名
  第10回内部観測研究会
- 発表場所
  東北大学電気通信研究所, 宮城県, 仙台市
- 年月日
  2016-02-27
- 関連する報告書
  2015 実績報告書
[学会発表] 満足化とその基準の動的な更新による強化学習の促進2015
- 著者名/発表者名
  甲野佑, 高橋達二
- 学会等名
  2015年度人工知能学会全国大会（第29回）
- 発表場所
  公立はこだて未来大学, 北海道, 函館
- 年月日
  2015-05-13
- 関連する報告書
  2015 実績報告書
[学会発表] 限定合理性に触発された強化学習法によるロボット運動学習2015
- 著者名/発表者名
  水戸亜友美, 牛田有哉, 朝倉勇護, 甲野佑, 横須賀聡, 浦上大輔, 高橋達二
- 学会等名
  2015年度人工知能学会全国大会（第29回）
- 発表場所
  公立はこだて未来大学, 北海道, 函館
- 年月日
  2015-05-13
- 関連する報告書
  2015 実績報告書
[学会発表] 不確実性の下での満足化を通じた最適化2015
- 著者名/発表者名
  高橋達二, 大用庫智, 甲野佑, 横須賀聡
- 学会等名
  2015年度人工知能学会全国大会（第29回）
- 発表場所
  公立はこだて未来大学, 北海道, 函館
- 年月日
  2015-05-13
- 関連する報告書
  2015 実績報告書
[学会発表] 満足化方策とオンラインな均衡2015
- 著者名/発表者名
  甲野佑
- 学会等名
  第9回内部観測研究会
- 発表場所
  早稲田大学西早稲田キャンパス，東京都，新宿区
- 年月日
  2015-02-28
- 関連する報告書
  2014 実績報告書
[学会発表] A Satisficing Strategy with Variable Reference in the Multi-armed Bandit Problems2014
- 著者名/発表者名
  Yu Kohno, Tatsuji Takahashi
- 学会等名
  ICNAAM 2014-ABBII
- 発表場所
  Rodos Palace Hotel, Rhodes, Greece
- 年月日
  2014-09-27
- 関連する報告書
  2014 実績報告書
[学会発表] 未知で不確実な環境に対する認知特性の意味と応用2014
- 著者名/発表者名
  甲野佑，高橋達二
- 学会等名
  認知科学会第31回大会
- 発表場所
  名古屋大学東山キャンパス，愛知県，名古屋市，千種区
- 年月日
  2014-09-20
- 関連する報告書
  2014 実績報告書
[学会発表] 柔軟な意思決定機能のための認知特性の応用と検証2014
- 著者名/発表者名
  甲野佑，高橋達二
- 学会等名
  人工知能学会全国大会
- 発表場所
  愛媛県県民文化会館(ひめぎんホール)，愛媛県，松山市
- 年月日
  2014-05-13
- 関連する報告書
  2014 実績報告書

未知環境から仮説を構築・推論するフレキシブルな認知的強化学習アルゴリズム

研究代表者

甲野 佑 東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)

1,700千円 (直接経費: 1,700千円)

報告書

研究成果

[雑誌論文] 認知特性を実装した価値関数による非定常環境への適応2016

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Robotic Action Acquisition with Cognitive Biases in Coarse-grained State Space2016

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 満足化価値関数を用いて自律的に探索する強化学習手法2016

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] A cognitive satisficing strategy for bandit problems2015

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 満足化とその基準の動的な更新による強化学習の促進2015

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 限定合理性に触発された強化学習法によるロボット運動学習2015

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 不確実性の下での満足化を通じた最適化2015

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 柔軟な意思決定機能のための認知特性の応用と検証2014

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 未知で不確実な環境に対する認知特性の意味と応用2014

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] 認知特性を実装した価値関数による非定常環境への適応2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 満足化価値関数を用いて自律的に探索する強化学習手法2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 認知的満足化による強化学習アルゴリズム2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 満足化とその基準の動的な更新による強化学習の促進2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 限定合理性に触発された強化学習法によるロボット運動学習2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

甲野佑東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)