2023 Fiscal Year Research-status Report
小データな多ドメイン間での知識共有のための機械学習手法の開発とその応用
Project/Area Number |
20K19871
|
Research Institution | Nagoya University |
Principal Investigator |
松井 孝太 名古屋大学, 医学系研究科, 講師 (50737111)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Keywords | 適応的実験計画 / ベイズ最適化 / 能動的レベル集合推定 / 機械学習 |
Outline of Annual Research Achievements |
本年度は、理論研究として特に適応的実験計画としての能動学習手法の開発とその評価、対外発表、論文および書籍の執筆を行った。具体的には以下の3つの項目について取り組んだ。 (1)ベイズ最適化の書籍の執筆を行った。本書は適応的実験計画の枠組みの説明から始め、ベイズ最適化の理論および実装を高いレベルで習得できるような内容となっている。 (2)能動的レベル集合推定のための新しい獲得関数の提案を行なった。能動的レベル集合推定を含む一般の適応的実験計画では、データの少ない探索の初期段階にはあまり有効な候補点を取得できないコールドスタート問題がしばしば起こるが、提案手法によって探索初期段階で他の方法と比較して効率的な探索が可能となることを実験的に示した。本研究は機械学習の国際会議であるNeurIPSのワークショップ(https://openreview.net/group?id=NeurIPS.cc/2023/Workshop/ReALML)で発表を行なった。 (3)機械学習モデルを少ないテスト点で評価するための新たな適応的実験計画法の提案した。既存の能動学習手法のほとんどは機械学習モデルの訓練時に用いるデータ数を節約するための手法であるが、実際にはモデルをテストする際にもテスト精度を正しく評価するために多数のデータが要請される。本研究では、モデルのテスト時に少ないデータ数で十分精度良くテスト精度を推定するための能動学習の方法を提案し、既存の方法と実験的に比較してその有効性を示した。本研究は機械学習の国際会議であるNeurIPSのワークショップ(https://openreview.net/group?id=NeurIPS.cc/2023/Workshop/ReALML)で発表を行なった。 また、応用研究として、自身らが作成した疾患の診断モデルの新規バリデーション研究も行なった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は方法論の研究、応用的研究それぞれで成果が得られた。また、書籍の執筆を通して能動学習および適応的実験計画という方法のアウトリーチを広く行うことができた。 能動的レベル集合推定のための新しい獲得関数は、例えば材料科学における様々な低品質領域推定問題に利用できる方法となっている。実際、共同研究者によって取得された太陽電池用シリコンインゴットの評価データによって性能を検証している。また、機械学習モデルの能動的評価のための適応的実験計画法は、様々な種類のモデルを評価対象とすることができる汎用的な方法であり、特に医学や材料科学のようなテストデータの収集に非常にコストがかかる領域において重要な技術となり得るものである。 疾患の診断モデルの新規バリデーション研究では、2017年に開発した心停止後症候群(PCAS)の神経学的予後の予測モデルに対して新たな集団のデータを用意し外的妥当性を検証するバリデーションを行なった。本スコアは、既に外部の研究者らによって複数のバリデーション研究が計画・実施されているが、今回の自身らによる新たな検証によって、その有効性および実用性に対するエビデンスがより強固になったと考えている。 以上のように、能動学習の方法開発および理論的研究について、また実問題を取り扱う応用研究および方法論のアウトリーチについて、おおむね順調に進んでいると判断することができる。
|
Strategy for Future Research Activity |
本年度の活動では、能動学習・適応的実験計画の研究に大きな進展が得られた。今後の展開として、(1)転移学習側の方法論の拡張と応用、(2)両者を能動的転移学習の方法として統合することを考えている。 (1)については、複数の元ドメインから特定に目標ドメインにデータをのものを転移するための事例転移の方法を開発する。事例転移として定式化する理由は、医学研究や材料科学研究のような全体のデータ数が少ない問題では、モデルの学習にできるだけ多くのデータを利用できるようにすることが重要だからである。既存の多くの方法は、類似度の低いドメインのデータはドメイン単位で利用されないことが多く、転移学習を用いたとしてもサンプルサイズが小さい問題が解消できない可能性が少なくない。これを解決するような事例転移アルゴリズムを開発し、実際の臨床試験のデータに適用してその有効性を検証することを計画している。 (2)については、(1)で開発した方法を援用した過去データを利用可能な適応的実験計画のアルゴリズムを開発することを考えている。
|
Causes of Carryover |
今年度国際会議で発表した内容を雑誌論文として纏めて出版するために、次年度使用額が生じた。また、開発した手法を国内の学会や研究集会等で発表するための費用としても利用することを計画している。
|