1996 年度実績報告書

自己制約的知覚による強化学習法の研究

研究課題

研究課題/領域番号	08780320
研究機関	北海道大学
研究代表者	鈴木恵二北海道大学, 工学部, 助教授 (10250482)
キーワード	自己制約的知覚 / マルチエージェント / 自己組織化 / 状境依存型通信
研究概要	本申請研究は,機械学習の一手法である強化学習法によって,従来プランニングを必要としてきたタスク処理問題の取り扱いを可能とする手法の展開を行った.すなわち,「自己制約的知覚生成による強化学習法の提案」を行い,特に組織的行動を要求されるマルチエージェントモデルへの適用を試みた. ここで,自己制約的知覚生成とは,行うべき目的に添って環境から受ける刺激のあり方を内的に生成しようとするものである.その特筆すべき特徴は,いわゆる"能動的センシング"とその"フィルタリング"に留まらず,創発的行動に必要な情報を主観的に生成することをも含む点である. 自己制約的知覚生成では,以下に示す機能を有する必要がある; 1)タスク処理の目的に沿った実環境情報の抽出・隠蔽・強調 2)非マルコフ過程を示す環境情報に対する自己生成的情報の付加 3)取りうる行動を制約するための疑似環境情報の付加これらの課題に対し,1),2)に対してはクラシファイヤーシステムに基づく自己組織化型の通信方法を提案し,タスク処理に必要な欠如情報の通信による相互補助の考え方を示した.またこのとき,通信方法の柔軟性向上のために,状況依存型の送受者認識に関する方法を提案し,送られてきたメッセージと自己の状況を照らし合わせて,そのメッセージに対応するかどうか決定するメカニズムを提案した.これらのメカニズムは,強化学習を用いて適応的に獲得され得る.3)に関しては,上記とは別のフェロモン型コミュニケーションの考え方を導入し,その有効性を検討した.