2019 Fiscal Year Research-status Report
数理モデルと機械学習を組み合わせたスモールデータ処理基盤技術の構築
Project/Area Number |
19K12139
|
Research Institution | University of Miyazaki |
Principal Investigator |
山森 一人 宮崎大学, 工学部, 教授 (50293395)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 機械学習 / 自己組織化マップ / 学習サンプル / 分散 |
Outline of Annual Research Achievements |
本研究の目的は,数少ないサンプルと数理モデルを組み合わせ,高い汎化能力を持つ学習サンプルと生成とその学習アルゴリズムを開発することである.特に多数の学習サンプルを得ることが困難な生命系現象を対象に,入力ベクトルの各要素を波動のサンプル点と見なして距離関数を定義した拡張重み更新型自己組織化マップを用いることで,高精度かつ汎化能力の高い学習モデルの確立を目指す.従来までの研究結果として,機械学習とその学習データの関係において,以下の問題点を提起した.(1)比較的大きなノイズ(測定誤差等)を含むデータから,信頼できるデータをどのように選び出すのか,(2)未整理,かつ少数の測定値をいかに有効に利用し,機械学習のアプローチにのせていくのか,(3)少ない学習サンプルでも過学習を起こさず,未知データに対しても信頼性の高い解が得られる学習法や学習モデルはどのようなものか.初年度である本年度は,既存の測定データの再整理,及び文献の調査を行うと共に,学習サンプルが学習精度に与える影響,特に上記の(1)について調査した.数が少ない場合とは反対に,データ数は多いものの必ずしも質が高くない,すなわち同一クラスに属する重複データや,異なるクラスに属する同一データが含まれる学習データ群において,これらを排除することで学習精度がどの程度向上するのか,あるいはこれらの影響により学習精度がどれくらい悪化するのかを実験により調査した.その結果,重複するデータや矛盾するデータを排除することにより学習精度の向上が可能なこと,及び2クラス分類問題におけるクラス間の適切な比率を明らかにすることができた.また,学習データの各要素を波動のサンプル点と見做して特徴量とするためのプログラム開発を進めている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究初年度である本年度では,学習サンプルの品質が学習結果に与える影響について調査した.本来の研究対象である生命系現象データを数が少ないため,矛盾するデータを含む大量のデータが得られるハニーポットに対する攻撃ログを対象に選び実験を行った.対象としたデータはKyoto 2016 Datasetであり,同一クラスに属する重複データ,異なるクラスに属する同一データ等を慎重に排除することにより,2クラスの分類精度を99%以上に向上させることが可能出あることを示した.これらの研究成果は下記の学会等により発表され,うち[1]では学生奨励賞を受賞した. [1]齊藤燎,相川勝,井上健太郎,山森一人,”「Kyoto 2016 Dataset」における冗長性と同一特徴量異ラベルデータに関する報告”,2019年度(第72回)電気・情報関係学会九州支部連合大会,06-2A-10(2019) [2]R. Saito, M. Aikawa, K. Inoue, K. Yamamori, "Affect of data unbalance in "Kyoto 2016 Dataset" for NIDS with machine learning", Proceedigns of the 25th International Symposium on Artificial Life and Robotics 2020, 612-616(2020)
|
Strategy for Future Research Activity |
学習データの精度と学習アルゴリズムの関係について定量的に明らかにしたので,今後は数理モデルをベースに学習データを生成するアルゴリズムについて検討を進める.特に,従来使用していたELIZA法によるバイオマーカー測定値から,質量分析によるMRM法によって得たデータを入手できる見込であり,新データを入手し次第,複数のバイオカーカー測定値と生理活性値の組み合わせ方を含め,データセットの作成とこれを用いた予備実験を進める.
|
Causes of Carryover |
年度末に学会参加に伴う出張を計画していたが新型コロナウィルス関係による学会の延期や出張の自粛が要請されたこと,及び既存のサーバが不調(起動時に手動によるリセットが複数回必要)のため入れ替えたが,想定よりも安価に入手できたことから差額が生じたものである.
|
Research Products
(2 results)