2016 Fiscal Year Research-status Report
人と機械学習の協調学習によるスマートグリッド制御システムの学習加速
Project/Area Number |
15K00321
|
Research Institution | Chubu University |
Principal Investigator |
山内 康一郎 中部大学, 工学部, 教授 (00262949)
|
Co-Investigator(Kenkyū-buntansha) |
石井 成郎 愛知きわみ看護短期大学, その他部局等, 准教授 (80399237)
鈴木 裕利 中部大学, 工学部, 准教授 (20340200)
澤野 弘明 愛知工業大学, 情報科学部, 准教授 (10609431)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | risk-sensitivek強化学習 / supervised actor-critic / learning on a budget / smart grid / automatic biding system |
Outline of Annual Research Achievements |
人間とコンピュータが協学習することで未知の問題に対する解を素早く得る技術を開発中である。2016年度は以下の2つを行った。 ①2015年度に開発した手法:CoLBagging2(Collaborative Bagging2)を電力卸売り入札システムのへの適用を行うべくシステム構築を行った。本研究では各卸売業者となる個人が携帯端末(スマートフォン、タブレット端末)を用いて入札することを想定しているため、これに必要なインターフェース並びにシミュレーションの実行環境を用意する必要から、このシステム構築に長けた他大学の研究者を加えて開発に当たった。現在インターフェースとシミュレータは完成しており、学習エンジンの調整を行っている。これが完成次第、多人数の被験者を対象とした実験を行う予定となっている。 ②本研究は、携帯端末に学習エンジンを搭載してユーザの取引内容をsupervised learningさせる一方で、ユーザが端末を操作しない日には自動的に取引戦略を学習するreinforcement learningとを交互に実行させることを計画している。その準備として携帯端末でも動作可能な強化学習アルゴリズムの開発を行った。携帯端末ではメモリー容量が厳しく制限される。この状況で学習アルゴリズムを実行するには固定容量での実行を担保する必要がある。固定容量での学習方法の多くは使用頻度の低い記憶は積極的に忘却して新しい知識を保存する必要がある。ところが負のrewardを伴う経験があるとその状態を避けるようになるため、結果としてその記憶は使用頻度の低い記憶とみなされ忘却しがちとなる。そこで本研究ではプロスペクト理論を用いて重要度重み付きの学習を実現し、負のrewardを強調して忘却しないようにした。その結果、限られた容量でも良好な結果が得られた。この学習法は未だ改善の余地があり、開発中である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
スマートグリッドシミュレータの開発に当たっては、ユーザが使うことが想定されている端末とサーバとの連携動作をさせる必要がある。このための端末とサーバとの通信プログラムの開発および連携のタイミングを合わせるプログラムの開発に予想以上の時間がかかっている。現在の所この開発は大詰めを迎えており、間もなく本実験に入ることができると見込んでいる。
|
Strategy for Future Research Activity |
現在開発しているシミュレータが間もなく完成する見込みである。その後、実際に事前知識を持たないユーザを集めこのシステムを使って取引を行わせる。ただし、被験者には2グループに分かれてもらい、1つのグループでは本システムからのアドバイスを参考にしながら取引を行ってもらう。もう一つのグループではアドバイスなしに取引を行ってもらう。数か月分の取引の後、これらの二つのグループでどの程度売電取引のスキルが向上したのか? 各グループから供給された電力の量がどの程度デマンドに合致した量となっていたかを評価する。また本方式のNash平衡状態についての評価を行うことも目指す。
次に、2016年度に開発したrisk-sensitive reinforcement learningを組み込んだうえで上記と同様の実験を行い、各グループのパフォーマンスを評価する。この場合、ユーザの取引結果の見まね学習をしない場合と見まね学習を併用する場合とで収束時間、取引内容の評価を比較する。
|
Causes of Carryover |
当該年度ではシミュレータの構築作業が行われたものの本格的な評価実験が行えなかったため、謝金などへの支出が少なかった。
|
Expenditure Plan for Carryover Budget |
本年度は実験・評価を行い学会発表、雑誌投稿を目指すため、投稿料、学会参加費への支出が見込まれる。 また評価実験ではnovice:すなわち事前知識を持たない被験者が必要であるため各人一回しか実験が行えない。そのため多数の被験者を集める必要から相当額が必要と見込まれる。
|
Research Products
(3 results)