2023 年度実施状況報告書

ドメイン知識を利用した効率的な機械学習モデルの構築

研究課題

研究課題/領域番号	20K11960
研究機関	明治大学
研究代表者	櫻井義尚明治大学, 総合数理学部, 専任教授 (30408653)
研究分担者	櫻井恵里子産業能率大学, 経営学部, 准教授 (00763567)
研究期間 (年度)	2020-04-01 – 2025-03-31
キーワード	機械学習 / 転移学習 / ドメイン知識 / メタラーニング / 自然言語処理 / 蒸留モデル / 疑似データ / 大規模言語モデル
研究実績の概要	本研究の目的は，大量の教師データだけに頼らず，ドメイン知識やノウハウを活用することで，少ない教師データから精度の高い機械学習モデルを構築することである。現在，機械学習による高精度な予測，分類を実現するためには，教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが，実問題への適用では，「十分なデータが用意できない」，「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。そこで，ドメイン知識を活用することで，データ不足を補う方法について，実験と検証を進めた。今年度は特に，大規模言語モデルを活用した疑似データ生成，データ変換やData Augmentation手法を中心に研究を進めた。Data Augmentationは教師データを増やす手法である。画像処理では類似画像が作り易く，有効性が高いためによく利用されるが，自然言語処理では，課題が多い。日本語特有のドメイン知識を用いたData Augmentation手法，大規模言語モデルからの有効な知識抽出，疑似データによる精度改善について検証を行った。応用課題としては，マーケティングなど市場調査において重要となるSNSからの意見抽出，市場環境を把握するための自然言語処理において，検証を行い，学会発表を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 TwitterがXに変わり，データの収集環境が大きく変わり，実験に必要なデータ収集が難しくなるなどの困難があり，他のメディアの検討やAPIの変更などの対応に大きく時間を取られたが，転移学習や疑似データ生成を中心に教師データが少ない場合に関連するデータやモデルを活用して精度の高い機械学習モデルを構築するための知見が得られており，学会発表も行えたことから，おおむね順調に研究は進展しているものと判断する。
今後の研究の推進方策	大規模言語モデルの大幅な発展から自然言語処理関連の分野では，新しい大規模言語モデルでの検証が必須な状況が続いている。研究計画を変更して，これに関わる検証を進めていく。その上で，これらの検証結果に基づき少ない教師データから精度の高い機械学習モデルを構築するためのアルゴリズム，データ，大規模言語モデルの有効な利用方法についての研究を進めていく。
次年度使用額が生じた理由	大規模言語モデルの発展と，SNSデータ環境の大きな変化により，追加実験が必要となり，研究成果の発表が次年度に繰越しとなったため。

研究成果
(4件)

すべて 2024 2023

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件)

[雑誌論文] Opinion Classifier Transfer Learning from Review Data2023
- 著者名/発表者名
  Ozeki Jin、Sakurai Yoshitaka、Terada Yuna
- 雑誌名
  
  Proc of 2023 IEEE Symposium Series on Computational Intelligence (SSCI2023)
  
  巻: 2023 ページ: 329-334
- DOI
  10.1109/SSCI52147.2023.10371812
- 査読あり
[学会発表] Twitterデータを用いたヘビーユーザ特定2024
- 著者名/発表者名
  小川歩, 鈴木愛海, 櫻井義尚
- 学会等名
  言語処理学会第30回年次大会
[学会発表] ヘイトスピーチ検出における GPT-4 による擬似ラベル付与の手法と評価2024
- 著者名/発表者名
  倉嶋将矢, 鍛原大成, 櫻井義尚
- 学会等名
  言語処理学会第30回年次大会
[学会発表] 日本語ヘイトスピーチ検出における疑似ラベルを用いた精度向上効果の検証2024
- 著者名/発表者名
  鍛原大成, 倉嶋将矢, 櫻井義尚
- 学会等名
  言語処理学会第30回年次大会

2023 年度 実施状況報告書

ドメイン知識を利用した効率的な機械学習モデルの構築

研究代表者

櫻井 義尚 明治大学, 総合数理学部, 専任教授 (30408653)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Opinion Classifier Transfer Learning from Review Data2023

著者名/発表者名

雑誌名

DOI

[学会発表] Twitterデータを用いたヘビーユーザ特定2024

著者名/発表者名

学会等名

[学会発表] ヘイトスピーチ検出における GPT-4 による擬似ラベル付与の手法と評価2024

著者名/発表者名

学会等名

[学会発表] 日本語ヘイトスピーチ検出における疑似ラベルを用いた精度向上効果の検証2024

著者名/発表者名

学会等名

2023 年度実施状況報告書

櫻井義尚明治大学, 総合数理学部, 専任教授 (30408653)