2013 Fiscal Year Research-status Report

人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用

Research Project

Project/Area Number	25730150
Research Category	Grant-in-Aid for Young Scientists (B)
Research Institution	Tokyo Denki University
Principal Investigator	高橋達二東京電機大学, 理工学部, 助教 (00514514)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	強化学習 / 認知科学 / モンテカルロ木探索 / n本腕バンディット問題
Research Abstract	初年度であった2013年度は人間認知の適応的特性を実装した価値関数の提案 (1) と、さらに大規模コンピューティングの手始めとして強化学習システムへの応用 (2) を行った。(2)は二年目の2014年度に計画していたものである。 (1) LS モデルの導入と n 本腕バンディット問題での性能検証人間の主要な認知バイアスを実装した価値関数である LS モデルに関し、それが図(着目事象)は合理性を持って詳細に、地(文脈となる他事象)は無構造・曖昧に捉える、いわば「局所的ベイジアン」の特性を実装していることを示し、その性質を3つの認知的特性「満足化 satisficing」、「相対評価」、「(プロスペクト理論的)リスク態度」に分析した。また、本研究の目的である大規模コンピューティングの最も基本的な例として、 n 本腕バンディット問題における LS の優れたパフォーマンスと(経験的)最適性を示す条件を明らかにした。この研究項目の結果は多岐にわたるが、国際誌・国際会議論文として出版し、また現在投稿中・執筆中である。 (2) LS の強化学習システムへの応用 (LS-Q) (1) で研究を進めたLS モデルについて、東京工科大学の浦上大輔助教との共同研究として、強化学習システムにおける価値関数としての適用を行った。具体的にはQ学習アルゴリズムの行動決定メカニズムとして非常に単純な付加を行う LS-Q アルゴリズムを提案した。タスクは大車輪運動を獲得させるロボット運動制御である。ここでは、決定論的（ただし非線形）な力学系上の制御を行うことになるが、状態の離散化・粗視化によりマルコフ性は失われている。ここで予備知識全くなしで、また報酬の与え方などに一切工夫を施すことなく、強化学習で適切な制御を行う。結果としては、LS-Qは状態の粗視・精細化の程度によらず、パラメータチューニングを不要として安定したパフォーマンスを示すことが分かった。本項目の研究に関してはBioSystems誌で出版した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 初年度の計画にあった価値関数の提案と n 本腕バンディット問題への適用については研究を完了し、国際誌論文と数本の国際会議論文として出版した他、現在投稿中の論文と執筆中の論文数本がある。また、2年目に予定していた強化学習への適用については既に BioSystems 誌で出版を行い、3年目の予定であったモンテカルロ木探索への適用については国内学会での発表を予定している。以上より当初の計画に比べて順調であると考える。
Strategy for Future Research Activity	研究計画では初年度にn本腕バンディット問題、次年度に強化学習、最終年度にモンテカルロ木探索への適用であったが、後二者で一般的な結果を得るには時間とリソースが必要であることもあり、可能な限り三項目を並列的に進めている。また今後は、提案アルゴリズムのパフォーマンスについて最悪性能の下限などの証明が肝要であるため、LSモデルを RS モデル (自律的パラメータの固定) と pARIs ルール (極限操作) に単純化し、理論的解析を進める。
Expenditure Plans for the Next FY Research Funding	旅費に関し、学会出席に関する調整のため。別学会の出席の旅費として用いる予定である。

Research Products
(4 results)

All 2014 2013 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results) (of which Invited: 1 results)

[Journal Article] Cognitively inspired reinforcement learning architecture and its application to giant-swing motion control2014
- Author(s)
  Uragami, D., Takahashi, T., Matsuo, Y.
- Journal Title
  
  Bio Systems
  
  Volume: 116 Pages: 1-9
- DOI
  10.1016/j.biosystems.2013.11.002
- Peer Reviewed
[Journal Article] Logical equivalence: Symmetric and asymmetric features2013
- Author(s)
  Sawa, K., Yokokawa, J., Takahashi, T.
- Journal Title
  
  Symmetry: Culture and Science
  
  Volume: 24, 1-4 Pages: 339-346
- Peer Reviewed
[Journal Article] A cognitively inspired heuristic for two-armed bandit problems: The loosely symmetric (LS) model2013
- Author(s)
  Oyo, K., Takahashi, T.
- Journal Title
  
  Procedia Computer Science
  
  Volume: 24 Pages: 194-204
- DOI
  10.1016/j.procs.2013.10.043
- Peer Reviewed
[Presentation] Biconditionals and “biconditional probability” in reasoning
- Author(s)
  Takahashi, T.
- Organizer
  Operationalization 2013
- Place of Presentation
  The Freiburg Institute for Advanced Studies (FRIAS), Albert-Ludwigs-Universitaet Freiburg
- Invited

2013 Fiscal Year Research-status Report

人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用

Principal Investigator

高橋 達二 東京電機大学, 理工学部, 助教 (00514514)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Cognitively inspired reinforcement learning architecture and its application to giant-swing motion control2014

Author(s)

Journal Title

DOI

[Journal Article] Logical equivalence: Symmetric and asymmetric features2013

Author(s)

Journal Title

[Journal Article] A cognitively inspired heuristic for two-armed bandit problems: The loosely symmetric (LS) model2013

Author(s)

Journal Title

DOI

[Presentation] Biconditionals and “biconditional probability” in reasoning

Author(s)

Organizer

Place of Presentation

高橋達二東京電機大学, 理工学部, 助教 (00514514)