研究概要 |
実時間探索は計画と実行を交互に行う問題解実時間探索は計画と実行を交互に行う問題解決アルゴリズムであり,問題解決を繰り返すことによって最適解に収束することが知られている.しかしながら,繰り返し問題解決を行う場合,収束は保証されても,その途中過程では,問題解決に要する処理時間は保証されない.繰り返しの途中で,初回の性能を下回る場合も多々生じる.この原因は探索が推定評価値の下界値しか用いていないためである.この研究では,初回の問題解決の結果得られた解への経路を基に上界値を計算し,それを用いた実時間探索を提案し,収束特性の改善を確認中である. 本研究は前年度に行なった実時間探索の学習特性の評価を発展させたものである.実時間探索の研究は,これまで初回の問題解決に注目し,その学習性能に対して注意を払ってこなかった.僅かに,我々が前年度に行なった測定結果が報告されているだけである.本研究は,初めて実時間探索の学習性能の問題点を明らかにし改善策を示したもので,実時間探索の新たな可能性を切り開くものである.強化学習でも,本論文での議論と同様の問題が生じているので,両分野で提案された技術の融合を図る意義は大きいと考えている.
|