2015 Fiscal Year Annual Research Report
予測と意思決定のための機械学習理論の構築とその神経回路での実現
Project Area | Elucidation of neural computation for prediction and decision making: toward better human understanding and applications |
Project/Area Number |
23120004
|
Research Institution | The University of Tokyo |
Principal Investigator |
杉山 将 東京大学, 新領域創成科学研究科, 教授 (90334515)
|
Co-Investigator(Kenkyū-buntansha) |
森本 淳 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 研究室長 (10505986)
|
Project Period (FY) |
2011-04-01 – 2016-03-31
|
Keywords | 予測 / 意志決定 / 機械学習 / 特徴選択 / 強化学習 |
Outline of Annual Research Achievements |
今年度も,特徴選択・抽出に関する研究と強化学習に関する研究に取り組んだ. 特徴選択に関しては,条件付き確率密度推定における高精度な特徴選択アルゴリズムを開発した.これは,スパース正則化技術を用いたアルゴリズムであり,計算効率が良い.また,データ空間の幾何構造を活かした教師なし次元削減手法を開発した.これは,データがリーマン構造を持った空間に属する場合に有効なアルゴリズムである.更に,確率密度微分の直接推定に基づく教師付き次元削減手法を開発した.これは,従来のように部分空間を繰り返しアルゴリズムによって探索をする必要がなく,解析的に解が計算できるという特徴を持つ手法である.また,スパース正則化技術を用いたテンソルデータの回帰・分類アルゴリズムも開発した.これは,データがベクトルでなくテンソル構造を保つ場合に,その構造を保ったまま回帰・分類を行うというアルゴリズムである.そして,これらのアルゴリズムの有効性を,計算機実験により実証した. 強化学習に関しては,正則化による政策勾配法の安定化に取り組んだ.これは,推定した政策勾配の分散を明示的に正則加工に取り込むアプローチであり,アルゴリズムの安定化に大きく貢献することを数値実験により確認した.また,オンライン政策勾配アルゴリズムの開発を行ない,リグレットとよばれる誤差指標が最適な速さで減少していくことを理論的に明らかにした.更に,次元削減付きモデルベース強化学習アルゴリズムを開発し,その有効性を計算機実験により示した.これらのアルゴリズム開発研究に加え,昨年度までに開発した強化学習手法を,コンピュータアートおよびヒューマノイドロボット制御に応用した.特にロボット制御に関しては,一般に困難とされる実空間における少ない試行回数でのロボットの制御システムが獲得可能であることを実験的に示した.また,強化学習に関する英語書籍を出版した.
|
Research Progress Status |
27年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
27年度が最終年度であるため、記入しない。
|
-
-
-
[Journal Article] Trial and error: Using previous experiences as simulation models in humanoid motor learning.2016
Author(s)
Sugimoto, N., Tangkaratt, V., Wensveen, T., Zhao, T., Sugiyama, M., & Morimoto, J.
-
Journal Title
IEEE Robotics & Automation Magazine
Volume: 23
Pages: 96-105
Peer Reviewed / Acknowledgement Compliant
-
[Journal Article] Adaptation and coaching of periodic motion primitives through physical and visual interaction.2016
Author(s)
Gams, A., Petric, T., Do, M., Nemec, B., Morimoto, J., Asfour, T. & Ude, A.
-
Journal Title
Robotics and Autonomous Systems
Volume: 75
Pages: 340-351
Peer Reviewed / Acknowledgement Compliant
-
-
-
-
-
[Presentation] Regularized policy gradients: Direct variance reduction in policy gradient estimation.2015
Author(s)
Zhao, T., Niu, G., Xie, N., Yang, J., & Sugiyama, M.
Organizer
Asian Conference on Machine Learning (ACML2015)
Place of Presentation
Hong Kong, China
Year and Date
2015-11-20 – 2015-11-22
Int'l Joint Research
-
-
-
[Presentation] Stroke-based stylization learning and rendering with inverse reinforcement learning.2015
Author(s)
Xie, N., Zhao, T., Tian, F., Zhang, X., & Sugiyama, M.
Organizer
International Joint Conference on Artificial Intelligence (IJCAI2015)
Place of Presentation
Buenos Aires, Argentina
Year and Date
2015-07-25 – 2015-07-31
Int'l Joint Research
-
-
-
-
-