• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Research-status Report

人間認知の適応的特性を実装した価値関数の提案と大規模コンピューティングへの応用

Research Project

Project/Area Number 25730150
Research Category

Grant-in-Aid for Young Scientists (B)

Research InstitutionTokyo Denki University

Principal Investigator

高橋 達二  東京電機大学, 理工学部, 助教 (00514514)

Project Period (FY) 2013-04-01 – 2016-03-31
Keywords強化学習 / 認知科学 / モンテカルロ木探索 / n本腕バンディット問題
Research Abstract

初年度であった2013年度は人間認知の適応的特性を実装した価値関数の提案 (1) と、さらに大規模コンピューティングの手始めとして強化学習システムへの応用 (2) を行った。(2)は二年目の2014年度に計画していたものである。
(1) LS モデルの導入と n 本腕バンディット問題での性能検証
人間の主要な認知バイアスを実装した価値関数である LS モデルに関し、それが図(着目事象)は合理性を持って詳細に、地(文脈となる他事象)は無構造・曖昧に捉える、いわば「局所的ベイジアン」の特性を実装していることを示し、その性質を3つの認知的特性「満足化 satisficing」、「相対評価」、「(プロスペクト理論的)リスク態度」に分析した。また、本研究の目的である大規模コンピューティングの最も基本的な例として、 n 本腕バンディット問題における LS の優れたパフォーマンスと(経験的)最適性を示す条件を明らかにした。この研究項目の結果は多岐にわたるが、国際誌・国際会議論文として出版し、また現在投稿中・執筆中である。
(2) LS の強化学習システムへの応用 (LS-Q)
(1) で研究を進めたLS モデルについて、東京工科大学の浦上大輔助教との共同研究として、強化学習システムにおける価値関数としての適用を行った。具体的にはQ学習アルゴリズムの行動決定メカニズムとして非常に単純な付加を行う LS-Q アルゴリズムを提案した。タスクは大車輪運動を獲得させるロボット運動制御である。ここでは、決定論的(ただし非線形)な力学系上の制御を行うことになるが、状態の離散化・粗視化によりマルコフ性は失われている。ここで予備知識全くなしで、また報酬の与え方などに一切工夫を施すことなく、強化学習で適切な制御を行う。結果としては、LS-Qは状態の粗視・精細化の程度によらず、パラメータチューニングを不要として安定したパフォーマンスを示すことが分かった。本項目の研究に関してはBioSystems誌で出版した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

初年度の計画にあった価値関数の提案と n 本腕バンディット問題への適用については研究を完了し、国際誌論文と数本の国際会議論文として出版した他、現在投稿中の論文と執筆中の論文数本がある。また、2年目に予定していた強化学習への適用については既に BioSystems 誌で出版を行い、3年目の予定であったモンテカルロ木探索への適用については国内学会での発表を予定している。以上より当初の計画に比べて順調であると考える。

Strategy for Future Research Activity

研究計画では初年度にn本腕バンディット問題、次年度に強化学習、最終年度にモンテカルロ木探索への適用であったが、後二者で一般的な結果を得るには時間とリソースが必要であることもあり、可能な限り三項目を並列的に進めている。
また今後は、提案アルゴリズムのパフォーマンスについて最悪性能の下限などの証明が肝要であるため、LSモデルを RS モデル (自律的パラメータの固定) と pARIs ルール (極限操作) に単純化し、理論的解析を進める。

Expenditure Plans for the Next FY Research Funding

旅費に関し、学会出席に関する調整のため。
別学会の出席の旅費として用いる予定である。

  • Research Products

    (4 results)

All 2014 2013 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results) (of which Invited: 1 results)

  • [Journal Article] Cognitively inspired reinforcement learning architecture and its application to giant-swing motion control2014

    • Author(s)
      Uragami, D., Takahashi, T., Matsuo, Y.
    • Journal Title

      Bio Systems

      Volume: 116 Pages: 1-9

    • DOI

      10.1016/j.biosystems.2013.11.002

    • Peer Reviewed
  • [Journal Article] Logical equivalence: Symmetric and asymmetric features2013

    • Author(s)
      Sawa, K., Yokokawa, J., Takahashi, T.
    • Journal Title

      Symmetry: Culture and Science

      Volume: 24, 1-4 Pages: 339-346

    • Peer Reviewed
  • [Journal Article] A cognitively inspired heuristic for two-armed bandit problems: The loosely symmetric (LS) model2013

    • Author(s)
      Oyo, K., Takahashi, T.
    • Journal Title

      Procedia Computer Science

      Volume: 24 Pages: 194-204

    • DOI

      10.1016/j.procs.2013.10.043

    • Peer Reviewed
  • [Presentation] Biconditionals and “biconditional probability” in reasoning

    • Author(s)
      Takahashi, T.
    • Organizer
      Operationalization 2013
    • Place of Presentation
      The Freiburg Institute for Advanced Studies (FRIAS), Albert-Ludwigs-Universitaet Freiburg
    • Invited

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi