• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実施状況報告書

ドメイン知識を利用した効率的な機械学習モデルの構築

研究課題

研究課題/領域番号 20K11960
研究機関明治大学

研究代表者

櫻井 義尚  明治大学, 総合数理学部, 専任教授 (30408653)

研究分担者 櫻井 恵里子  産業能率大学, 経営学部, 准教授 (00763567)
研究期間 (年度) 2020-04-01 – 2025-03-31
キーワード機械学習 / 転移学習 / ドメイン知識 / メタラーニング / 自然言語処理 / 蒸留モデル / 疑似データ / 大規模言語モデル
研究実績の概要

本研究の目的は,大量の教師データだけに頼らず,ドメイン知識やノウハウを活用することで,少ない教師データから精度の高い機械学習モデルを構築することである。現在,機械学習による高精度な予測,分類を実現するためには,教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが,実問題への適用では,「十分なデータが用意できない」,「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。そこで,ドメイン知識を活用することで,データ不足を補う方法について,実験と検証を進めた。
今年度は特に,大規模言語モデルを活用した疑似データ生成,データ変換やData Augmentation手法を中心に研究を進めた。Data Augmentationは教師データを増やす手法である。画像処理では類似画像が作り易く,有効性が高いためによく利用されるが,自然言語処理では,課題が多い。日本語特有のドメイン知識を用いたData Augmentation手法,大規模言語モデルからの有効な知識抽出,疑似データによる精度改善について検証を行った。
応用課題としては,マーケティングなど市場調査において重要となるSNSからの意見抽出,市場環境を把握するための自然言語処理において,検証を行い,学会発表を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

TwitterがXに変わり,データの収集環境が大きく変わり,実験に必要なデータ収集が難しくなるなどの困難があり,他のメディアの検討やAPIの変更などの対応に大きく時間を取られたが, 転移学習や疑似データ生成を中心に教師データが少ない場合に関連するデータやモデルを活用して精度の高い機械学習モデルを構築するための知見が得られており,学会発表も行えたことから,おおむね順調に研究は進展しているものと判断する。

今後の研究の推進方策

大規模言語モデルの大幅な発展から自然言語処理関連の分野では,新しい大規模言語モデルでの検証が必須な状況が続いている。研究計画を変更して,これに関わる検証を進めていく。その上で,これらの検証結果に基づき少ない教師データから精度の高い機械学習モデルを構築するためのアルゴリズム,データ,大規模言語モデルの有効な利用方法についての研究を進めていく。

次年度使用額が生じた理由

大規模言語モデルの発展と,SNSデータ環境の大きな変化により,追加実験が必要となり,研究成果の発表が次年度に繰越しとなったため。

  • 研究成果

    (4件)

すべて 2024 2023

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件)

  • [雑誌論文] Opinion Classifier Transfer Learning from Review Data2023

    • 著者名/発表者名
      Ozeki Jin、Sakurai Yoshitaka、Terada Yuna
    • 雑誌名

      Proc of 2023 IEEE Symposium Series on Computational Intelligence (SSCI2023)

      巻: 2023 ページ: 329-334

    • DOI

      10.1109/SSCI52147.2023.10371812

    • 査読あり
  • [学会発表] Twitterデータを用いたヘビーユーザ特定2024

    • 著者名/発表者名
      小川歩, 鈴木愛海, 櫻井義尚
    • 学会等名
      言語処理学会 第30回年次大会
  • [学会発表] ヘイトスピーチ検出における GPT-4 による擬似ラベル付与の手法と評価2024

    • 著者名/発表者名
      倉嶋将矢, 鍛原大成, 櫻井義尚
    • 学会等名
      言語処理学会 第30回年次大会
  • [学会発表] 日本語ヘイトスピーチ検出における疑似ラベルを用いた精度向上効果の検証2024

    • 著者名/発表者名
      鍛原大成, 倉嶋将矢, 櫻井義尚
    • 学会等名
      言語処理学会 第30回年次大会

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi