研究課題/領域番号 |
24560501
|
研究機関 | 大阪府立大学 |
研究代表者 |
松本 啓之亮 大阪府立大学, 工学(系)研究科(研究院), 教授 (90285304)
|
キーワード | 機械学習 / 協調学習 / エージェント |
研究概要 |
協調学習の適用例として追跡問題に強化学習を適用した.完全知覚学習と呼ばれる学習法で学習すると,エージェントの数が多くなるにつれて状態数の爆発が起こってしまうという問題がある.そこで,着目するエージェントの数を2 体に限定することにより,状態数を減らして強化学習の速度を速くした.しかし,問題として知覚精度を下げて得られる知識を減らしていることにより,学習の後期における行動選択の精度が低下することが挙げられる.そのため,長期的な性能は完全知覚学習と比較すると劣ってしまう.そこで,切り換え学習を用いる.強化学習において,特に時間のかかる初期の学習を知覚精度を下げて高速化し,ある程度学習が進んだ段階で完全知覚に戻すことを考える.ここで,初期の知覚精度を下げた影響は完全になくならないため,行動判断の精度を完全に保つことはできない.この問題を解決するために学習を切り換えるための,適切なタイミングを得るのにゴールデンクロスを利用した. ゴールデンクロスとは,移動平均線を利用したチャート分析の一つである.短期の移動平均線が長期の移動平均線を下から上に突き抜けるようなチャートを指す.株価分析によく用いられ,ゴールデンクロスが見られると短期の買い需要が高まっていることを示し,買いのサインとされる.このように,ゴールデンクロスは過去のデータを利用して数値上昇予測をしており,下に凸であるグラフの上昇部分の検出に優れている.株価分析に用いるのが主流であるが,学習精度が劣化して捕獲ステップ数が増加するタイミングを見つけるのにも相性が良いと考えられる.このゴールデンクロスを利用した切り換え学習法を考案した.その後,適用実験を通して適切な切り換えタイミングを確認し,提案手法が設定された学習率・割引率に応じて柔軟に適切な切り換えタイミングを自動検出し,切り換え学習により効率的な学習ができることを示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度,一部先行的に検討していた本研究のメインテーマの一つである協調学習アルゴリズムをゴールデンクロスを用いた切り換え学習により確立した.これを基礎にしてプロトコルを通信するための分散型システムアーキテクチャを設計した.
|
今後の研究の推進方策 |
分散型システムアーキテクチャにより,各エージェントを効率よく協調させて,公正なシステム運用方式を獲得するためのエージェントの知的判断部を実現する.さらにこれらをシステムとしてまとめ,プロトタイプシステムを構築し,シミュレーションによる評価を目指す.
|
次年度の研究費の使用計画 |
分散型システムアーキテクチャにより,各エージェントを効率よく協調させて,公正なシステム運用方式を獲得する協調学習法であるQ 学習を十分確立し検証するために,協調学習の典型的なベンチマークである追跡問題を例に徹底的にアルゴリズムを見直した.このため,プロトタイプシステムの構築が来年度となった. エージェントの知的判断部を実現してシステムとしてまとめ,プロトタイプシステムを構築し,シミュレーションによる評価を目指す.ネットワーク上で実用可能性を検証できる程度の規模をもつプロトタイプシステムを構築するため,クライアントマシンおよびネットワーク部品等を購入する.
|