研究課題/領域番号 |
20K11960
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 明治大学 |
研究代表者 |
櫻井 義尚 明治大学, 総合数理学部, 専任教授 (30408653)
|
研究分担者 |
櫻井 恵里子 産業能率大学, 経営学部, 准教授 (00763567)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 機械学習 / 転移学習 / ドメイン知識 / メタラーニング / 自然言語処理 / 蒸留モデル / 疑似データ / 大規模言語モデル / 教師データ / タスクベクトル / ルールベース |
研究開始時の研究の概要 |
本研究の目的は、大量の教師データだけに頼らず、ドメイン知識やノウハウを活用することで、少ない教師データから精度の高い機械学習モデルを構築することである。 現在、機械学習による高精度な予測、分類を実現するためには、教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが、実問題への適用では、「十分なデータが用意できない」、「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。本研究では、ルールベースシステムと深層学習などの機械学習モデルを組合せる事で高精度・高信頼な機械学習モデルを構築する手法を開発する。
|
研究実績の概要 |
本研究の目的は,大量の教師データだけに頼らず,ドメイン知識やノウハウを活用することで,少ない教師データから精度の高い機械学習モデルを構築することである。現在,機械学習による高精度な予測,分類を実現するためには,教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが,実問題への適用では,「十分なデータが用意できない」,「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。そこで,ドメイン知識を活用することで,データ不足を補う方法について,実験と検証を進めた。 今年度は特に,大規模言語モデルを活用した疑似データ生成,データ変換やData Augmentation手法を中心に研究を進めた。Data Augmentationは教師データを増やす手法である。画像処理では類似画像が作り易く,有効性が高いためによく利用されるが,自然言語処理では,課題が多い。日本語特有のドメイン知識を用いたData Augmentation手法,大規模言語モデルからの有効な知識抽出,疑似データによる精度改善について検証を行った。 応用課題としては,マーケティングなど市場調査において重要となるSNSからの意見抽出,市場環境を把握するための自然言語処理において,検証を行い,学会発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
TwitterがXに変わり,データの収集環境が大きく変わり,実験に必要なデータ収集が難しくなるなどの困難があり,他のメディアの検討やAPIの変更などの対応に大きく時間を取られたが, 転移学習や疑似データ生成を中心に教師データが少ない場合に関連するデータやモデルを活用して精度の高い機械学習モデルを構築するための知見が得られており,学会発表も行えたことから,おおむね順調に研究は進展しているものと判断する。
|
今後の研究の推進方策 |
大規模言語モデルの大幅な発展から自然言語処理関連の分野では,新しい大規模言語モデルでの検証が必須な状況が続いている。研究計画を変更して,これに関わる検証を進めていく。その上で,これらの検証結果に基づき少ない教師データから精度の高い機械学習モデルを構築するためのアルゴリズム,データ,大規模言語モデルの有効な利用方法についての研究を進めていく。
|