2020 Fiscal Year Research-status Report
数理モデルと機械学習を組み合わせたスモールデータ処理基盤技術の構築
Project/Area Number |
19K12139
|
Research Institution | University of Miyazaki |
Principal Investigator |
山森 一人 宮崎大学, 工学部, 教授 (50293395)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 機械学習 / 自己組織化マップ / 強化学習 |
Outline of Annual Research Achievements |
機械学習における学習用サンプルの精度と数量について,本研究で使用を前提としている拡張重み更新型自己組織化マップと他の機械学習手法の比較を目的として,主として他の機械学習手法の比較を行い,国際会議での発表を行った.学習サンプルが多数あるものの,同じサンプルが重複して含まれていたり,学習サンプル間で矛盾が存在する例(特徴量が同じなのに別のクラスに続する学習サンプルの存在など)として,コンピュータへの不正アクセスを例題とし,これらを取り除いて学習を行った場合と,特に前処理等を行わずそのまま学習を行った場合について比較し,重複等を取り除いた場合にどの程度推定精度が向上するか定量的な評価を行った[研究業積1].また,強化学習を比較対象とし,学習サンプルの数が多く正例/負例の数に著しい偏りがある例としてWeb Application Firewall(WAF)による正常/攻撃通信の判別を採り上げ,判別精度の定量的評価を行った[研究業績2].これらの研究結果をベースに,本研究で用いる拡張重み更新型自己組織化マップへの応用として,当初の予測通り学習サンプルを十分準備すること,前処理を慎重に行い学習セット内に矛盾が含まれないようにすることが重要であることを再確認することができた.さらに,強化学習を用いた試験において,準備した学習サンプルのどの要素を学習材料とするのか,正例/負例のバランス等について具体的な指針を得ることができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在普及している主な機械学習手法と,本研究で使用する拡張重み更新型自己組織化マップとの定量的比較を目的とし,現在普及している主な機械学習手法による比較用データの収集と対照群の実験データ収集を完了した.特に,学習用のサンプルの数と精度について,定量的なデータを収集することを重視した. 研究業績1では,学習サンプル中に矛盾する例が含まれている場合(特徴量が同じで属するクラスが異なる)と含まれていない場合,同じサンプルが同一クラスに重複して含まれる場合と含まれない場合等について,クロスフォールドテストの手法を用いてランダムフォレストやQ-学習等の機械学習アプローチを用いた際の分類結果について詳細に検討した.特に後者の場合は正例/負例のバランスが偏っていることから,最終目標であるたんぱく質発現量からの生理活性値推定では負例(活性がないデータの収集はかえって難しい)が少ない場合が多いため,間接的な比較対照群として実験を行った.その結果,予想通り矛盾したサンプルを除去したうえ,正例/負例をバランス良く含む学習セットを準備することが,機械学習系のアルゴリズムを用いて分類(将来的には生理活性の有無)を推定する際に重要であることを再確認した. 研究業績2では,ネットワークセキュリティーを題材に,正例(通常通信)/負例(攻撃的通信)の判別を強化学習で行う際に,正例/負例のバランスが著しく偏っている場合,すなわち正例が圧倒的に多く,負例が少数含まれるような学習セットが与えられたときの分類精度について詳細に検討した.これは,本研究テーマにおいては高い生理活性を示す食品は多くなく(正例が少ない),ほとんどの食品には特筆すべき活性がないことに該当し,比較対象として実験を行ったものである.この実験においても,研究業績1の場合と同様の結果が得られ,学習セットを構成する前の処理が重要であることを改めて確認した.
|
Strategy for Future Research Activity |
これまでの研究成果を踏まえ,令和3(2021)年度については準備済のたんぱく質発現量と食品機能性データを改めて組み合わせる.その後,数理モデル(ロジスティック回帰モデル)をベースに再標本化を行い,学習サンプル数が異なるデータセットを複数準備する.さらに,拡張重み更新型自己組織化マップにおける距離関数を,従来研究のユークリッド距離から,重みと学習サンプル間の相互相関係数に変更したうえで,マップサイズを変更しつつコンピュータシミュレーションを行って推定精度評価実験を行う. たんぱく質発現量と食品機能性データの組み合わせについては,改めてその関係(比例関係に近いか,反比例関係に近いか)を文献により調査し,判明したものについては調査結果に基づいて組み合わせ,食品成分の作用機序が不明でたんぱく質発現量と生理活性の増減関係が不明なものについては農学部の研究者からアドバイスを受けつつ組み合わせを決定する.再標本化については,既発表研究と同じく測定値のみを用いて再標本化を行う場合と,ロジスティック回帰モデルを用いて生成した人工データを加えて再標本化を行う場合の2種類のデータを準備する.拡張重み更新型自己組織化マップにおける勝者ノードの決定についても,既発表研究と同じく単純なユークリッド距離を用いる場合と,たんぱく質発現量間の相互相関係数を用いる場合の2種類について実験を行う.すなわち,再標本化と勝者ノードの決定法の組み合わせで,少なくとも4つの場合について実験を行い,既発表研究で十分な推定精度が得られなかった生理活性値の推定精度を向上させることができるか,定量的に明らかにしたうえで研究成果について学会発表を行う.生理活性の推定精度向上が実現できる見込がたった場合,本手法を実装したツールの作成(単体アプリケーション,またはWebアプリケーション)を行って研究成果の社会への還元を図る.
|
Research Products
(2 results)