本研究課題において新たに創造しようとしている相互依存型決定過程とは、これまでにない新しい型の多段決定過程モデルであり、複数の決定過程が各々の各期の利得関数を通して互いに再帰的に依存している決定過程である。 昨年度までに、確定的状態推移の下での相互依存型決定過程については、対応する利得関数や目的関数(利得の評価式)の多様化などにより、適用可能な問題を拡大してきた。実際、落下試験問題や拡張落下試験問題、多角形からの凸多面体構成問題等を適用例とし、その有効性を示した。 これらの成果をもとに、25年度は主に不確実性を含む問題への対応をはかった。実際、マルコフ決定過程上に相互依存型決定過程を構築し、確率環境下でも再帰的な決定過程構造を持つ問題へ対応可能とした。さらに評価関数として、結合型評価を確率システムに導入し 動的計画法による再帰式を導いた。これらの結果については、26年度中に、順次、論文や国際会議等で公開する準備ができている。さらに、興味深い適用例として、折り紙ユニットによる凸多面体構成問題に取り組み、複雑な問題が、相互依存型決定過程モデルを用いることでうまく扱えることを示した。新しい概念である相互依存型決定過程の知名度を上げ、普及を図っていくためにも、身近な折り紙を題材とした内容は有効であり、学会機関誌へ読み物としての掲載も決定している。また、計算機による数値実験も行った。動的計画法には、避けては通ることのできない「次元の呪い」が存在するが、それでも厳密解が必要とされる状況は存在する。汎用ソルバーが存在しない動的計画法なので、実問題へ適用するうえでのライブラリ構築も必要と考え、試作を行った。これについては、まだまだ改良の余地あり、といった状況である。なお、本研究課題で扱った決定過程は、有限期間かつ状態集合・決定集合ともに有限の場合である。
|