2017 Fiscal Year Annual Research Report
強化学習理論に基づく問題解決のモデル化と創造的問題解決の認知機序の解明
Project/Area Number |
16H01725
|
Research Institution | The University of Tokyo |
Principal Investigator |
植田 一博 東京大学, 大学院総合文化研究科, 教授 (60262101)
|
Co-Investigator(Kenkyū-buntansha) |
鮫島 和行 玉川大学, 付置研究所, 教授 (30395131)
福田 玄明 東京大学, 大学院総合文化研究科, 助教 (40615100)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 認知科学 / 実験系心理学 / 学習心理学 / 脳・神経 |
Outline of Annual Research Achievements |
強化学習の計算理論における重要なパラメータとして,学習の速さを決定する学習率αと,「既得情報の利用と新規情報の探索」のバランス,すなわち情報探索傾向を決定する逆温度βとがある.この2つのパラメータおよび不確実性をどの程度受容するかというリスク志向性によって特徴付けられる認知機構は,強化学習そのものや意思決定のみならず,問題解決の説明原理にもなり得るという仮説の検証をいくつかの課題に対して行った. 創造性課題について上記の仮説を検証するために,創造性を測るための3種類のアイデア生成課題を参加者に課し,回答を5つの評価項目で評価した.さらに,強化学習課題(ギャンブリング課題),ハノイの塔課題,コイン場所当て課題も課し,これらの課題を特徴づけるパラメータや成績と創造性の評価との関連性を調べた.その結果,強化学習課題においてリスクを気にしない参加者ほどアイデアを多数生成すること,およびコイン場所当て課題における学習の大きさとアイデア生成課題の独自性との間に関連性があることがわかった. さらに洞察課題について上記の仮説を検証するために,洞察課題であるマッチ棒課題と強化学習課題(ギャンブリング課題)を参加者に課し,ギャンブリング課題から得られた意思決定に関わるパラメータの個人差からマッチ棒課題の成績を予測できることを明らかにした.特に,ギャンブリング課題のパフォーマンスを強化学習によって説明するのが適切なreinforcement learnerと教師付き学習によって説明するのが適切なsupervised learnerとの間でマッチ棒課題のパフォーマンスを比較したところ,前者の方が後者よりも優れていることがわかった.この結果は,洞察が強化学習の基盤となっている認知機構に支えられている可能性を示唆している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
一部の実験で望ましい結果が出ていないものの,当初予定していた実験を順調に実施し,分析も進んでいる.研究成果の発表も順調に行われている.そのため,上記のように判断した.
|
Strategy for Future Research Activity |
強化学習の計算理論における重要なパラメータとして,学習の速さを決定する学習率αと「既得情報の利用と新規情報の探索」のバランスを決定する逆温度βがある.この2つのパラメータによって特徴付けられる認知機構は,強化学習そのものや意思決定のみならず,問題解決の説明原理にもなり得るという仮説を,創造的問題解決,洞察問題解決,通常の問題解決のそれぞれに対して検証する. 具体的には,実験参加者に各課題を解いてもらい,それぞれのパフォーマンスを示す指標(通常の問題解決では正答率と正答時間,洞察問題解決では正答率,正答時間,制約緩和率,創造的問題解決ではuniquenessの視点や,第三者評定に基づく独創性や有用性などの得点)を個人ごとに抽出する.また,Behrens et al. (2008)などで用いられている山賊問題(bandit task)も実施してもらい,学習率αと逆温度βを個人ごとに推定する.そして,問題解決のパフォーマンスを示す各指標と学習率αおよび逆温度βとの間に相関(βの場合には逆相関)があるかどうかを検討する.特に,山賊問題の実験設定を変更した上で,迷路探索課題など昨年度実施していない問題に対しても検討を行い,かつ問題解決者の学習をタイプ分類(supervised learnerかreinforcement learnerか)した上で分析することで,実験結果の頑健性を担保する(心理実験). 仮説通り,問題解決者および問題解決のタイプによって問題解決パフォーマンスと逆温度βとの間に関係が見いだされた場合,当該の問題解決には右前頭極が関与している可能性が考えられる.そこで,右前頭極の活動を経頭蓋電気刺激によりコントロールすることで,新規情報探索傾向およびこれらの問題解決のパフォーマンスが変化するかどうかを検討する(脳計測実験).
|
Research Products
(35 results)