Development of small data processing method combined with mathmatical model and machine learning approarch
Project/Area Number |
19K12139
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | University of Miyazaki |
Principal Investigator |
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2019: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | 機械学習 / スモールデータ / 数理モデル / 決定木 / ネットワークセキュリティ / 拡張重み更新型自己組織化マップ / 強化学習 / ヒューリスティック / 自己組織化マップ / 学習サンプル / 分散 / ソフトコンピューティング |
Outline of Research at the Start |
本研究では,多数の学習サンプルを得ることが困難な生命系現象を対象に,少数の未整理かつ分散の大きいデータから適切な学習サンプルを構築する手法,および少ない学習サンプルでも過学習を起こさず汎化能力の高い学習アルゴリズムを確立することを目的とする.具体的には,研究代表者が関与したたんぱく質発現量からの食品機能性(複数のがん抑制活性)推定を題材に,生命活動を反映した数理モデルにより生成した学習サンプルと,ベクトルの要素を波のサンプル点と見做した距離関数を導入した拡張重み更新型自己組織化マップを併用することで,高精度かつ汎化能力の高い学習モデルの確立を目指す.
|
Outline of Final Research Achievements |
Recent machine learning algorithms require a large number of training samples. In this research, I try to combine the mathematical model that can approximate the phenomena and the machine learning approach to solve some problems that are hard to observe the phenomena or hard to reproduce the experimental results again. I picked up two problems; one was to estimate the physiological activities from the protein expression levels, and the other was to detect the intrusion into the computer systems. For the first one, I rewrote the Linux-based programs into an integrated program. For the second one, I showed Gradient Boosted Decision Tree algorithm was suitable and robust for the small number of training samples.
|
Academic Significance and Societal Importance of the Research Achievements |
現代のAIでは,適切な結果を得るためには膨大な数の学習サンプルを必要とする.一方,観測が困難であったり再現が難しいなど,多数の学習サンプルを準備することが難しい課題も存在する.本研究では,学習データを補うため数理モデルを作成し,モデルに従って学習サンプルを生成することで精度よく学習が行うことが可能なアプローチを模索した.例題として,たんぱく質発現量から生理活性値を推定する問題,および学習データ数は豊富なものの信頼性に疑義があるコンピュータシステムへの侵入検知問題を取り上げた.前者については推定プログラムを作成し,後者についてはブースティングを併用した決定木アプローチが有効であることを示した.
|
Report
(5 results)
Research Products
(12 results)