研究課題/領域番号 |
07750460
|
研究種目 |
奨励研究(A)
|
配分区分 | 補助金 |
研究分野 |
システム工学
|
研究機関 | 大阪大学 |
研究代表者 |
山口 智浩 大阪大学, 基礎工学部, 助手 (00240838)
|
研究期間 (年度) |
1995
|
研究課題ステータス |
完了 (1995年度)
|
配分額 *注記 |
1,000千円 (直接経費: 1,000千円)
1995年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 人工知能 / 機械学習 / 問題解決 / 抽象化 / 同型性 / 強化学習 / ロボット学習 / 多様性 |
研究概要 |
本年度は、前年度の成果として得られた、状態の同型性を抽象化に利用する“同型性に基づく抽象化問題解決"を拡張し、状態空間の階層的な同型性を利用して、効率的に抽象化問題解決する方法を研究すると共に、一般的な分野への応用として、同型な機能、構造を持つロボットの行動学習として、同型性に基づく抽象化強化学習法を考案し、以下の研究を行った。 (1)状態空間の階層的な同型性の解析による、階層化抽象空間の生成 同型性に基づく抽象化だけでは不十分な場合、抽象空間の階層的な同型性を利用すると、階層的な抽象空間を段階的に生成して、より小さな抽象空間を求め、解析の計算コストを削減することができることを示した。 (2)効率的な抽象化プランニングと詳細化 生成した階層的な抽象空間中に、初期状態と目標状態とを写像し、抽象空間における、初期状態と目標状態とを結ぶ状態遷移をプランニングにより求めて、抽象プランを効率よく探索できることを示した。 (3)ロボットの行動学習システムの構築 現有の計算機と通信しながら学習するロボットの行動学習システムを構築した。シミュレーション学習と実環境での実ロボットとのハイブリッド強化学習システムを作成し、両者の学習システムを共通化することにより、仮想個体、実ロボット間での学習結果の交換を可能とした。学習法として、経験強化型のClassifier Systemを元にして、高速化の拡張を行い、従来困難だった実ロボットでの実時間強化学習を実現した。 (4)同型性に基づく強化学習法による、ロボットの多様な行動の獲得 構築したロボットの行動学習システムを用いて、まずあるタスクで強化学習を行い、得た学習結果に対し、行為の同型性を利用した置換を組み合わせ的に施して同型な学習結果を生成し、学習結果のバリエーションの探索を行う。その結果、学習したタスクを達成する、同型な挙動や、学習タスクに似た、類似挙動など、従来の強化学習法では、得られない多様な行動を、効率的に獲得することができた。
|