2020 Fiscal Year Research-status Report
Constructing Machine Learning Framework for Set Data Based on Kernel Mean Embeddings
Project/Area Number |
18K18112
|
Research Institution | Chiba Institute of Technology |
Principal Investigator |
吉川 友也 千葉工業大学, 人工知能・ソフトウェア技術研究センター, 主任研究員 (30772040)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 機械学習 / カーネル法 / 集合データ / 解釈可能性 / ガウス過程 |
Outline of Annual Research Achievements |
集合データとは、1つのデータが特徴の多重集合によって構成されるデータで、機械学習モデルの入力として頻繁に現れる。例えば、文書を単語やNグラムの多重集合で表現したものが集合データである。その他にも、生物情報学では蛋白質を部分構造の集合で表現したり、グループに対する推薦システムでは、個人の集合をグループとして表現したりしており、集合データが入力の機械学習モデルの適用範囲は極めて広い。その上で、本研究課題では、モデルの拡張や変更が容易 で、ユーザがパラメータ更新則の導出をする必要がなく、モデルパラメータの効率的な学習が可能な、カーネル平均埋め込みに基づく集合データのための機械学習フレームワークを構築することを目的とする。 機械学習が幅広い分野で実用化されていくとともに、機械学習モデルがなぜそのような予測結果を出力したのか解釈可能であることが要求されることが多くなっ ている。 初年度より、どのような機械学習フレームワークが必要か検討をしてきたが、そのような需要を踏まえて、本研究課題では解釈可能な予測結果を出力できる機械学習フレームワークの構築に焦点を絞ることとする。 研究期間3年目は、高精度の予測と予測の解釈可能性を両立するために、カーネル法に基づく手法を開発した。具体的には、事例ごとに、ガウス過程事前分布から生成された非線形関数を用いて局所線形モデルの重みを生成し、その局所線形モデルを用いて予測を行うモデルを開発した。この局所線形モデルは各事例で線形なので解釈しやすく、データ全体では非線形な関数になるため予測精度が高いという特徴を持つ。数値実験によってその有効性を確認し、論文投稿を行った。投稿論文のプレプリント版はarXiv (arXiv:2007.01669) で 公開済みである。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
手法の開発が終わり、論文投稿まではできたものの、論文誌の採録には至らず、論文修正の作業が残っているため。
|
Strategy for Future Research Activity |
研究期間2年目と3年目で行った研究についての論文を現在論文誌に投稿中である。これらの論文の修正作業を行い、採録を目指す。また、本研究で開発した手法の実装を公開し、広く使えるようにする。
|
Causes of Carryover |
国際会議での発表がなく海外出張を行わなかったため、旅費予算を使用しなかった。フレームワーク開発のために人件費を計上していたが、適当な人材が見つからず、研究代表者のみで開発を行ったため、使用しなかった。 2本の論文を現在論文誌に投稿中である。次年度使用額については、論文修正で発生する追加実験を行うためのクラウドコンピューティング費用や、採録された際の論文掲載料として使用する。
|
Research Products
(1 results)