2016 Fiscal Year Research-status Report
強化学習を用いたサイバーフィジカルシステムのフレキシブルな開発技術
Project/Area Number |
16K06424
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
松本 啓之亮 大阪府立大学, 工学(系)研究科(研究院), 教授 (90285304)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | サイバーフィジカルシステム / 機械学習 / エージェント |
Outline of Annual Research Achievements |
サイバーフィジカルシステムをその構成単位ごとに自律的に行動するマルチエージェントシステムとしてモデル化した.各エージェントの構造は知的判断部,基本機能部,ネットワーク通信関連部からなる.ネットワーク通信によりプロトコルを介して結ばれるマルチエージェントシステムについて基本機能を定義し,その機能を実装した.定義された作業が協調をとりながら実行されることを確認するためプロトコルに準拠したテストを実施した.実フィールド環境では,不確実性や計測不能な未知のパラメータが存在するため,タスクの達成方法やゴールへの到達方法を事前にあらゆる場合を想定し,あらかじめ設定することは非常に困難となる.このため本研究では試行錯誤を通して環境に適応する学習制御の枠組みである強化学習を採用した. 適用例として追跡問題に強化学習を適用した.すべてのハンタは獲物を捕まえるという共通の目的を持ち, ハンタがとれる行動はどのハンタも同じである.そのような環境において,ハンタが獲物を捕まえる際,各ハンタの適した行動は一致するものがあり, 他のハンタの行動を学習することにより,少ない試行回数で適した行動を学習できると考えられる.そこで, 本研究では他のハンタの行動履歴をもとに自身のQ値を更新する手法を考案した.実験の結果,提案手法は学習は早くなっているが, 最終的な学習結果は行動履歴を共有しない手法と比べて悪くなる傾向がある.提案手法は学習終盤に他ハンタの行動を学習したことで学習精度が劣化していると考えられる.このため,他のハンタの行動履歴を利用して学習する際の学習率をエピソード数に応じて減少させ, 学習が進むにつれて他のハンタの行動履歴による学習への影響を少なくする.これにより, 学習初期は他のハンタの行動履歴を活用し, 学習が進むと自分の履歴のみを利用した学習に近づくこととなる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究のメインテーマの一つである強化学習アルゴリズムの中核部分について先行的に検討・実施し,実現の見通しが得られた.
|
Strategy for Future Research Activity |
システムのモデル化と強化学習アルゴリズムの中核部分については見通しが得られたので,これらを基礎にして通信するための分散型システムアーキテクチャの設計や各エージェントを効率よく協調させサイバーフィジカルシステムをフレキシブルに開発するためのエージェントの知的判断部のモデル駆動開発による自動生成を目指す.
|
Causes of Carryover |
高機能なコンピュータハードウェアが新年度以降に販売されることになったので,購入時期を遅らせたため.
|
Expenditure Plan for Carryover Budget |
ネットワーク上で実用可能性を検証できる程度の規模をもつプロトタイプシステムを構築するため,サーバマシン,クライアントマシンおよびネットワーク部品等を購入する.
|
Research Products
(8 results)