研究課題/領域番号 |
20H04259
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61040:ソフトコンピューティング関連
|
研究機関 | 東京電機大学 |
研究代表者 |
高橋 達二 東京電機大学, 理工学部, 教授 (00514514)
|
研究分担者 |
甲野 佑 東京電機大学, 理工学部, 研究員 (10870313)
玉造 晃弘 東京電機大学, 理工学部, 研究員 (10876361)
太田 宏之 防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 講師 (20535190)
浦上 大輔 日本大学, 生産工学部, 准教授 (40458196)
大用 庫智 関西学院大学, 総合政策学部, 講師 (60755685)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円)
2022年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
2021年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
2020年度: 7,410千円 (直接経費: 5,700千円、間接経費: 1,710千円)
|
キーワード | 強化学習 / 満足化 / 限定合理性 / 動物実験 / 機械学習 / 社会学習 / 因果推論 / 自然知能 / 天然知能 / 模倣 / バンディット問題 / 深層強化学習 / 採餌行動 / 行動経済学 / 模倣学習 |
研究開始時の研究の概要 |
囲碁やビデオゲームなどで人間を上回る性能を見せている「人工強化学習」に対して、人間や動物の社会性や動機付け、環境の探索方法を組み込んだ「自然強化学習」を提案する。人工強化学習では、無数の致命的な失敗(=死)なしには学習が行えず、大量の個体集合で解決を図る。他方人間や多くの動物は、他個体の学習状況を観察して自らの内発的・外発的動機付けを調整し、結果、無駄な死も避ける。社会性を組み込んだ高効率な「自然強化学習」の理論とモデルを構築し、それを動物や人間の実験で検証するとともに、工学的な応用も実現する。
|
研究成果の概要 |
本研究では、報酬、動機づけ、計算理論的な問題定式化、そして社会性の観点から、強化学習理論の見直しを行い、人間や動物の扱う「自然強化学習」の長所を強化学習アルゴリズムに採り入れた。成果として、理論的には主観リグレット概念による、限定合理性・意思決定・採餌理論の統合に成功した。産業的な応用も行った他、不確実性の下でのエミュレーション的な社会学習の原理を定式化した。マウスに関しては本研究の理論を一般化しうる興味深い結果を得た。
|
研究成果の学術的意義や社会的意義 |
人間や動物がどのように不確実な環境において学習しているかについての知見を深めました。これは今後、教育、訓練、社会活動などをどのように行うべきかについて指針を与える可能性があります。また、ChatGPTなどが人間と対話できるようにするために肝要な強化学習技術について、学習の目標を定めれば、それに向かって非常に効率的に学習を行えるようになりました。これは、生成AI、ゲーム技術、ロボット制御などにおいて広範な応用を得る可能性があります。
|