2015 Fiscal Year Research-status Report

漸近最適戦略の動的適応学習アルゴリズムへの応用

Research Project

Project/Area Number	15K00344
Research Institution	Osaka Prefecture University
Principal Investigator	野津亮大阪府立大学, 工学(系)研究科(研究院), 准教授 (40405345)
Co-Investigator(Kenkyū-buntansha)	本多克宏大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
Project Period (FY)	2015-04-01 – 2018-03-31
Keywords	漸近最適戦略 / 強化学習 / 認知モデル / クラスタリング
Outline of Annual Research Achievements	本研究では，１：漸近最適戦略や共クラスタリング技術を知的エージェントで効果的に利用すること，２：二つの技術を融合することで生まれる新しい学習アルゴリズムの有用性を示すことを大きな目標としている．１については強化学習アルゴリズムとして，漸近最適戦略であるdiscounted UCB1-tunedを行動決定手法として適用することによって，報酬が学習環境中に分散して存在する場合にも報酬効率の最も良い行動が選択できることを確認した．これは学習速度を追求したときには従来の行動選択政策では達成できず，非常に効果的なアルゴリズムであることがわかった．これについて国内会議発表，国際会議発表を行った．２については最適化問題に対してクラスタリングとUCTアルゴリズムを適用し，従来法と比較して初期探索の非常に優れた手法を開発した．開発した手法は最良解の値を探索することよりも，最良解がどの当たりにあるかを明らかにするもので，DEなどと比較すると，ノイズや環境の変化に強い学習アルゴリズムとなっている．これについても国内会議発表，国外会議発表，論文誌掲載などの研究発表を行うことができた．また，平成28年度の実施計画にしていた，マルチエージェントシミュレータを構築した．電子地図情報から都市のモデルを構築し，シミュレータによって感染症の流行を観測することができた．従来のSIRモデルやSEIRモデルでは説明しにくいような現象である，二次流行や都市構造から生じる感染の不均一さを確認した．これについては一部国内会議発表を行っており，残りの部分については国内会議での発表を予定している．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 本研究は当初の計画以上に進展しており，平成28年度に予定していたマルチエージェントシミュレータについての研究発表を終わらせている．さらに，漸近最適戦略についても心理学的知見と相性良く組み合わせることができることがわかり，ベイズ推定とプロスペクト理論に基づいた新たな学習アルゴリズムを完成させた．実験を終え，2016年5月に論文投稿を行った．また，自己組織化マップによるクラスタリングが強化学習と相性の良いことがわかった（FAN論文賞（第２５回インテリジェント・システム・シンポジウム）を受賞）ので，さらに漸近最適戦略との関係性について検討，実験を進める．
Strategy for Future Research Activity	今後の研究方針としてはこれまでに提案してきた学習システムのより複雑で多様な環境での学習性能を明らかにし，どのような環境でも学習できるようなアルゴリズムに改良する．学習環境の多次元化，厳しい制約条件の追加などを当面の予定としている．さらに，これらの心理学的な意義について専門家と相談し，関連する心理学分野を研究調査して，論文投稿を積極的に検討する．
Causes of Carryover	投稿する英語論文について，和文投稿が可能であり平成２７年度の英文添削の必要がなくなったため
Expenditure Plan for Carryover Budget	平成２８年度の英語論文の添削費用とする

Research Products
(8 results)

All 2016 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Acknowledgement Compliant: 1 results) Presentation (7 results) (of which Int'l Joint Research: 3 results)

[Journal Article] バンディットアルゴリズムに基づいた汎用最適化手法の開発2016
- Author(s)
  野津亮, 河上寛和, 本多克宏, 生方誠希
- Journal Title
  
  知能と情報（日本知能情報ファジィ学会誌）
  
  Volume: 28 Pages: 522,534
- Peer Reviewed / Acknowledgement Compliant
[Presentation] Performance Investigation of UCB Policy in Q-Learning2015
- Author(s)
  K. Saito, A. Notsu, S. Ubukata and K. Honda
- Organizer
  International Conference on Machine Learning and Applications
- Place of Presentation
  Pullman Hotel，マイアミ，アメリカ
- Year and Date
  2015-12-09 – 2015-12-11
- Int'l Joint Research
[Presentation] Proposal of Grid Area Search with UCB for Discrete Optimization Problem2015
- Author(s)
  A. Notsu, K. Saito, Y. Nohara, S. Ubukata and K. Honda
- Organizer
  Integrated Uncertainty in Knowledge Modelling and Decision Making
- Place of Presentation
  SUNRISE HOTEL，ニャチャン，ベトナム
- Year and Date
  2015-10-15 – 2015-10-17
- Int'l Joint Research
[Presentation] FCM-type Co-clustering Transfer Reinforcement Learning for Non-Markov Processes2015
- Author(s)
  A. Notsu, T. Ueno, Y. Hattori, S. Ubukata and K. Honda
- Organizer
  Integrated Uncertainty in Knowledge Modelling and Decision Making
- Place of Presentation
  SUNRISE HOTEL，ニャチャン，ベトナム
- Year and Date
  2015-10-15 – 2015-10-17
- Int'l Joint Research
[Presentation] Q学習におけるUCB行動選択手法の性能に関する調査2015
- Author(s)
  斉藤晃貴，野津亮，生方誠希，本多克宏
- Organizer
  第25回インテリジェント・システム・シンポジウム
- Place of Presentation
  東北大学片平さくらホール（宮城県仙台市）
- Year and Date
  2015-09-24 – 2015-09-25
[Presentation] 強化学習における自己組織化マップを用いた状態と行動の学習プロセスの可視化2015
- Author(s)
  服部雄市，野津亮，生方誠希，本多克宏
- Organizer
  第25回インテリジェント・システム・シンポジウム
- Place of Presentation
  東北大学片平さくらホール（宮城県仙台市）
- Year and Date
  2015-09-24 – 2015-09-25
[Presentation] Q学習におけるファジィ共クラスタリングによる知識の圧縮と再利用2015
- Author(s)
  服部雄市，野津亮，生方誠希，本多克宏，上野貴紀
- Organizer
  第31回ファジィシステムシンポジウム
- Place of Presentation
  電気通信大学（東京都調布市）
- Year and Date
  2015-09-02 – 2015-09-04
[Presentation] UCBによる離散最適化問題の探索と活用の調整2015
- Author(s)
  斉藤晃貴，野津亮，野原由布美，生方誠希，本多克宏
- Organizer
  第31回ファジィシステムシンポジウム
- Place of Presentation
  電気通信大学（東京都調布市）
- Year and Date
  2015-09-02 – 2015-09-04

2015 Fiscal Year Research-status Report

漸近最適戦略の動的適応学習アルゴリズムへの応用

Principal Investigator

野津 亮 大阪府立大学, 工学(系)研究科(研究院), 准教授 (40405345)

Current Status of Research Progress

Reason

Research Products

[Journal Article] バンディットアルゴリズムに基づいた汎用最適化手法の開発2016

Author(s)

Journal Title

[Presentation] Performance Investigation of UCB Policy in Q-Learning2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Proposal of Grid Area Search with UCB for Discrete Optimization Problem2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] FCM-type Co-clustering Transfer Reinforcement Learning for Non-Markov Processes2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Q学習におけるUCB行動選択手法の性能に関する調査2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 強化学習における自己組織化マップを用いた状態と行動の学習プロセスの可視化2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Q学習におけるファジィ共クラスタリングによる知識の圧縮と再利用2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] UCBによる離散最適化問題の探索と活用の調整2015

Author(s)

Organizer

Place of Presentation

Year and Date

野津亮大阪府立大学, 工学(系)研究科(研究院), 准教授 (40405345)