2022 Fiscal Year Research-status Report
Construction of efficient machine learning models using domain knowledge
Project/Area Number |
20K11960
|
Research Institution | Meiji University |
Principal Investigator |
櫻井 義尚 明治大学, 総合数理学部, 専任教授 (30408653)
|
Co-Investigator(Kenkyū-buntansha) |
櫻井 恵里子 産業能率大学, 経営学部, 准教授 (00763567)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 機械学習 / 転移学習 / ドメイン知識 / メタラーニング / 自然言語処理 / 蒸留モデル / 教師データ |
Outline of Annual Research Achievements |
本研究の目的は,大量の教師データだけに頼らず,ドメイン知識やノウハウを活用することで,少ない教師データから精度の高い機械学習モデルを構築することである。現在,機械学習による高精度な予測,分類を実現するためには,教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが,実問題への適用では,「十分なデータが用意できない」,「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。そこで,ドメイン知識を活用することで,データ不足を補う方法について,実験と検証を進めた。 今年度は特に,少ない教師データから精度の高い機械学習モデルを構築するための転移学習手法やData Augmentation手法,特徴量ベクトル空間の分析を中心に研究を進めた。転移学習とは,ある課題で学習したこと(学習済みモデル)を別の課題において活用することで,効率的に教師あり学習を行う方法である。ある特定のタスク(課題)に対して,有効に機能する別タスク,異なるデータセットによる学習の有効性,学習済みモデルについて実験・検証を重ね,その有効性を検証した。また,Data Augmentationは教師データを増やす手法である。画像処理では類似画像が作り易く,有効性が高いためによく利用されるが,自然言語処理では,課題が多い。日本語特有のドメイン知識を用いたData Augmentation手法について検証を行った。 応用課題としては,マーケティングなど市場調査において重要となるSNSからの意見抽出,市場環境を把握するための自然言語処理において,検証を行い,学会発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コロナ禍の影響もあり,国際交流が難しかったり,被験者実験が難しいなどの影響もあったが,転移学習や半教師あり学習を中心に教師データが少ない場合に関連するデータやモデルを活用して精度の高い機械学習モデルを構築するための知見が得られており,学会発表も行えたことから,おおむね順調に研究は進展しているものと判断する。
|
Strategy for Future Research Activity |
大規模言語モデルの大幅な発展から自然言語処理関連の分野では,新しい大規模言語モデルでの検証が必須な状況になっており,研究計画を変更して,ますこれに関わる検証を進めていく。その上で,これらの検証結果に基づき少ない教師データから精度の高い機械学習モデルを構築するためのアルゴリズム,データについての研究を引き続き進めていく。
|
Causes of Carryover |
新型コロナの影響により、学会発表での現地出席が無くなったため、今年度は旅費の出費が無くなった。また、同じく新型コロナの影響により、被験者実験の実施が困難となり、被験者謝金の出費がなくなった。 残りは、今後の国際会稽への旅費や被験者謝金として利用する予定。
|