強化学習に基づいた分散人工知能の研究

研究課題

研究課題/領域番号	10750304
研究種目	奨励研究(A)
配分区分	補助金
研究分野	システム工学
研究機関	松江工業高等専門学校
研究代表者	原元司松江工業高等専門学校, 情報工学科, 助教授 (00259920)
研究期間 (年度)	1998 – 1999
研究課題ステータス	完了 (1999年度)
配分額 *注記	2,100千円 (直接経費: 2,100千円) 1999年度: 900千円 (直接経費: 900千円) 1998年度: 1,200千円 (直接経費: 1,200千円)
キーワード	マルチエージェント強化学習 / Q-学習 / β-タイプ学習オートマトン / Profit Sharing / Eligibility Traces / 強化学習による協調行動
研究概要	平成10年度においては研究計画に基づきつぎのように研究を展開した。 1.申請者らの提案による分散強化学習システムの挙動を数値シミュレーションにより把握 2.非定常環境を想定した単体のエージェントによる強化学習システムの構築これらのシミュレーションを行い、申請者らの提案による強化学習システムのパラメータ設定の方法を検討した。Q-学習との単純な比較はできないものの、パラメータ設定による安定度では我々の手法が優れていることが示された。しかし、最適なパラメータの探索には我々の手法にも問題点があることが確認できた。そのシミュレーションの途中で東工大の小林らのグループにより類似の研究である「マルチエージェント強化学習の方法論」(入工知能学会学会誌、1998年7月号)が発表された。Profit SharingとQ-学習との比較がこの論文では行われているが、研究の方向を見なおすこととした。そこで、Suttonらの提案によるEligibility Tracesを含めたマルチエージェント強化学習を再検討した。平成11年度においてはつぎのように研究を展開した。申請者らの提案した分散強化学習システムの適用を保留しておき、Q-学習とProfit Sharingを併用したエージェントについてシミュレーションを行った。具体的には仮想環境上でランダムウォークする獲物を追尾するハンターエージェントを定義し、その行動生成にQ-学習のみではなくProfit Sharingを適用し、Q-学習におけるパラメータ設定の考察を行った。Q-学習のみでは学習しきれなかった無効ルールの除去に役立ち、複雑な環境でも適応的に追尾行動を生成することが確認できた。この結果をマルチエージェントへ拡張した場合も各々のエージェントが独立して好ましい追尾行動を生成可能であると考えられる。申請者らの提案する分散強化学習システムについてもProfit Sharingと同様な枠組を適用でき、Q-学習に比べてパラメータによるより安定な結果が得られると予測している。以上2年間にわたる科学研究費補助金による援助によって、マルチエージェントへの拡張、強化学習における強調行動の生成ルールの提案といった研究の方向性を打ち出すことができた。学会発表をするには至らなかったが、今回の成果をもとに興味ある研究を展開できると確信している。この度科学研究費補助金を受けたことに関し、関係者各位に謝意を表すものである。

報告書

(2件)

1999 実績報告書
1998 実績報告書