2012 Fiscal Year Research-status Report
時間軸を考慮したニューロベース強化学習によるシンボル処理創発への突破口の模索
Project/Area Number |
23500245
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 大分大学, 工学部, 准教授 (10260522)
|
Keywords | 知能創発 / ロボット / シンボル処理創発 / 強化学習 / リカレントニューラルネット / 微分型トレース / 時間軸調整 / 動詞表現獲得 |
Research Abstract |
ニューラルネットにおける各ニューロンの出力変化の大きさに応じて入力を保持して,過去の状態に対して効率的に価値関数の学習を行う微分型トレースについて,学習初期の学習速度が遅いという問題点およびトレースの初期値の与え方をどうするかという2つの問題点に対し,過去の出力変化と現在の出力変化の相対的な関係に基づいて入力信号を取り込む割合を変化させる方法,および,試行開始時に,入力の総和が0の場合の出力からの変化量に基づいて入力信号を取り込む方法を導入した。そして,100ステップかけて通過できる状態が100個1次元に配置された簡単な環境で価値関数の学習をさせ,微分型トレースが,適格度トレースに比べて効率的に学習ができることを示すことができた。 一方,時系列の連続値センサ入力に対し,学習によって「部屋」「廊下」などの離散的な状態へ分節化することについては,複数の部屋移動タスクにおいて,部屋の中の壁やボタンまでの距離の情報を入力として与え,ボタンを押すと周りのドアの1つがランダムに開き,さらにその部屋に移動してボタンを押すと再び周りのドアの1つがランダムに開くという流れを繰り返し,4つめの部屋に到達すると報酬がもらえる環境を計算機上に構築し,学習を試みた。そして,ドアの開き方によらずゴールに到達できることを確認するとともに,中間層に,開くドアの方向によらず,ドアが開いて新しい部屋が出現する前と後を離散的に区別するニューロンが発現することを確認した。これは,連続値入力信号から「部屋」という単位を切り出すことにつながる成果であると考えている。 また,コミュニケーションにおける動詞表現の獲得については,コミュニケーションを行う前段階として,画像から物体の動きを認識することができるかどうかを確認したところ,画像サイズが大きくなると認識が難しくなるという問題があることが判明した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
時間軸の調整を行う微分型トレースについては,状態価値の学習のみで行動の学習は含んでいないものの,従来良く用いられている適格度トレースに対する優位性を示すことができたこと,そして,「主観的な時間軸」の形成とその利用という今後への大きな可能性を示すことができ,23年度から比べて大きく達成度は挽回できた。 多数の部屋からなる環境での学習は,計算機シミュレーションで行い,比較的複雑な環境での学習の確認と離散的な状態表現の出現を確認でき,大きな成果を得たが,実際のロボットと多数の部屋からなる学習実験環境の構築は進んでいない。 それから,コミュニケーション学習における動詞表現の獲得に関する研究および実験環境の構築も,まだ前段階である動きの認識の学習で問題点が見つかり,その解決に時間がかかっており,予定していた成果は得られていない状況である。 以上のように,予定通りに進んでいるところとそうでないところがあることを総合的に考慮し,「やや遅れている」と判断した。
|
Strategy for Future Research Activity |
微分型トレースについては,最終年度に,行動の学習も含めた場合の有効性を検証することを最大の目的とする。そして,「主観的な時間軸」という観点から,今後大きく発展して行く可能性が大きいことから,同じくニューロンの出力の時間微分を用いて入力信号を取り込む手法を用いているリカレントニューラルネットの学習方法であるPRL法との融合等,今後への展開を考えて行く。 離散的な状態表現については,ロボットシミュレータWebotsを試用して使えそうなことから,環境構築や更新の容易性を考慮し,実ロボットでの実験からシミュレータを用いた実験に方向を転換する。そして,部屋の移動タスクにおいて,簡単な視覚センサ信号を入力として与えて学習させるだけで,離散的な状態表現が創発するかどうかを検証する。 また,コミュニケーション学習については,前段階である画像から物体の動きの認識学習で出た問題に対し,カメラを動かすことを合わせて学習させる。シミュレーションで学習できることを確認した後,xyテーブルを用いてカメラを動かすシステムを構築し,認識の学習を行う予定である。合わせて,シミュレーションで,動詞表現の獲得が学習できるかを検証するが,時間的に考えて,実ロボットを用いた実験での動詞表現の獲得の実現はかなり厳しい状況である。
|
Expenditure Plans for the Next FY Research Funding |
本年度は,複数の部屋からなる環境の構築ができず,次年度に使用することとした。 コミュニケーション学習システムでは,すでにxyテーブルを別予算にて購入したため,後はその他の組み立て用の機材等の購入をする予定である。また,研究の進展からの必要に応じて,ロボットシミュレータの追加ライセンスを購入する。さらに,シミュレーションおよびデータ処理のためのPCを購入するとともに,成果発表のための国内外の学会(国外2回,国内2回程度で研究協力者の分も含む)への出張旅費として主として使用していく予定である。
|
Research Products
(16 results)