ドメイン知識を利用した効率的な機械学習モデルの構築

研究課題

研究課題/領域番号	20K11960
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	明治大学
研究代表者	櫻井義尚明治大学, 総合数理学部, 専任教授 (30408653)
研究分担者	櫻井恵里子産業能率大学, 経営学部, 准教授 (00763567)
研究期間 (年度)	2020-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	機械学習 / 転移学習 / ドメイン知識 / メタラーニング / 自然言語処理 / 蒸留モデル / 疑似データ / 大規模言語モデル / 教師データ / タスクベクトル / ルールベース
研究開始時の研究の概要	本研究の目的は、大量の教師データだけに頼らず、ドメイン知識やノウハウを活用することで、少ない教師データから精度の高い機械学習モデルを構築することである。現在、機械学習による高精度な予測、分類を実現するためには、教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが、実問題への適用では、「十分なデータが用意できない」、「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。本研究では、ルールベースシステムと深層学習などの機械学習モデルを組合せる事で高精度・高信頼な機械学習モデルを構築する手法を開発する。
研究実績の概要	本研究の目的は，大量の教師データだけに頼らず，ドメイン知識やノウハウを活用することで，少ない教師データから精度の高い機械学習モデルを構築することである。現在，機械学習による高精度な予測，分類を実現するためには，教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが，実問題への適用では，「十分なデータが用意できない」，「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。そこで，ドメイン知識を活用することで，データ不足を補う方法について，実験と検証を進めた。今年度は特に，大規模言語モデルを活用した疑似データ生成，データ変換やData Augmentation手法を中心に研究を進めた。Data Augmentationは教師データを増やす手法である。画像処理では類似画像が作り易く，有効性が高いためによく利用されるが，自然言語処理では，課題が多い。日本語特有のドメイン知識を用いたData Augmentation手法，大規模言語モデルからの有効な知識抽出，疑似データによる精度改善について検証を行った。応用課題としては，マーケティングなど市場調査において重要となるSNSからの意見抽出，市場環境を把握するための自然言語処理において，検証を行い，学会発表を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 TwitterがXに変わり，データの収集環境が大きく変わり，実験に必要なデータ収集が難しくなるなどの困難があり，他のメディアの検討やAPIの変更などの対応に大きく時間を取られたが，転移学習や疑似データ生成を中心に教師データが少ない場合に関連するデータやモデルを活用して精度の高い機械学習モデルを構築するための知見が得られており，学会発表も行えたことから，おおむね順調に研究は進展しているものと判断する。
今後の研究の推進方策	大規模言語モデルの大幅な発展から自然言語処理関連の分野では，新しい大規模言語モデルでの検証が必須な状況が続いている。研究計画を変更して，これに関わる検証を進めていく。その上で，これらの検証結果に基づき少ない教師データから精度の高い機械学習モデルを構築するためのアルゴリズム，データ，大規模言語モデルの有効な利用方法についての研究を進めていく。

報告書

(4件)

研究成果
(18件)

すべて 2024 2023 2021 2020

すべて雑誌論文 (2件) (うち国際共著 1件、査読あり 2件) 学会発表 (16件)

[雑誌論文] Opinion Classifier Transfer Learning from Review Data2023
- 著者名/発表者名
  Ozeki Jin、Sakurai Yoshitaka、Terada Yuna
- 雑誌名
  
  Proc of 2023 IEEE Symposium Series on Computational Intelligence (SSCI2023)
  
  巻: 2023 ページ: 329-334
- DOI
  10.1109/ssci52147.2023.10371812
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] Embodiment matters: toward culture-specific robotized counselling2020
- 著者名/発表者名
  E. Sakurai, K. Kurashige, S. Tsuruta, Y. Sakurai, R. Knauf, E. Damiani, A. Kutics, F. Frati
- 雑誌名
  
  Journal of Reliable Intelligent Environments
  
  巻: 6 号: 3 ページ: 129-139
- DOI
  10.1007/s40860-020-00109-y
- 関連する報告書
  2020 実施状況報告書
- 査読あり / 国際共著
[学会発表] Twitterデータを用いたヘビーユーザ特定2024
- 著者名/発表者名
  小川歩, 鈴木愛海, 櫻井義尚
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] ヘイトスピーチ検出における GPT-4 による擬似ラベル付与の手法と評価2024
- 著者名/発表者名
  倉嶋将矢, 鍛原大成, 櫻井義尚
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 日本語ヘイトスピーチ検出における疑似ラベルを用いた精度向上効果の検証2024
- 著者名/発表者名
  鍛原大成, 倉嶋将矢, 櫻井義尚
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 楽天レビューモデルからの知識蒸留を用いた意見判別モデル2023
- 著者名/発表者名
  尾関迅, 櫻井義尚
- 学会等名
  第85回情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] キャラクターの顔領域の情報を用いたイラスト作者推定2023
- 著者名/発表者名
  笠松慎之介, 櫻井義尚
- 学会等名
  第85回情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 複数蒸留モデルのパラメータ探索と最適なモデルの提示2023
- 著者名/発表者名
  船田毅, 櫻井義尚
- 学会等名
  第85回情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] BERT を用いたフィルタリングによる Twitter からの教師データ作成手法2023
- 著者名/発表者名
  金澤滉典, 櫻井義尚
- 学会等名
  第85回情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] SNS を用いた株価の騰落予測におけるツイート抽出方法の比較検証2023
- 著者名/発表者名
  安田健士郎, 櫻井義尚
- 学会等名
  第85回情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] ツイートデータを活用した意見抽出モデルの構築と精度改善2023
- 著者名/発表者名
  間明拓海, 櫻井義尚
- 学会等名
  第85回情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] サービス評価指標予測による重要意見抽出効果の検証2023
- 著者名/発表者名
  矢口一晟, 櫻井義尚
- 学会等名
  第85回情報処理学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 日本語処理における英語のための自然言語処理data augmentation手法の有用性検証2021
- 著者名/発表者名
  仲宗根太朗, 櫻井義尚
- 学会等名
  第84回情報処理学会全国大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 日本語自然言語処理におけるTASK2VECの検証2021
- 著者名/発表者名
  高橋司, 櫻井義尚
- 学会等名
  第84回情報処理学会全国大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 動物園の来場者予測におけるSNSデータの貢献2021
- 著者名/発表者名
  鈴木耀司, 櫻井義尚
- 学会等名
  第84回情報処理学会全国大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 敵対的訓練によるドメイン適応を用いた転移学習手法のHR 分野への適用2020
- 著者名/発表者名
  行武俊秀, 櫻井義尚
- 学会等名
  第83回情報処理学会全国大会
- 関連する報告書
  2020 実施状況報告書
[学会発表] BERT による政策の不確実性評価指標を用いた日経平均株価予測モデル2020
- 著者名/発表者名
  小野俊輔, 櫻井義尚
- 学会等名
  第83回情報処理学会全国大会
- 関連する報告書
  2020 実施状況報告書
[学会発表] インフルエンサーツイート分類モデルと転移学習を用いた意見抽出システムの構築2020
- 著者名/発表者名
  間明拓海, 櫻井義尚
- 学会等名
  第83回情報処理学会全国大会
- 関連する報告書
  2020 実施状況報告書

ドメイン知識を利用した効率的な機械学習モデルの構築

研究代表者

櫻井 義尚 明治大学, 総合数理学部, 専任教授 (30408653)

4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Opinion Classifier Transfer Learning from Review Data2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Embodiment matters: toward culture-specific robotized counselling2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Twitterデータを用いたヘビーユーザ特定2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] ヘイトスピーチ検出における GPT-4 による擬似ラベル付与の手法と評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語ヘイトスピーチ検出における疑似ラベルを用いた精度向上効果の検証2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 楽天レビューモデルからの知識蒸留を用いた意見判別モデル2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] キャラクターの顔領域の情報を用いたイラスト作者推定2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 複数蒸留モデルのパラメータ探索と最適なモデルの提示2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] BERT を用いたフィルタリングによる Twitter からの教師データ作成手法2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] SNS を用いた株価の騰落予測におけるツイート抽出方法の比較検証2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ツイートデータを活用した意見抽出モデルの構築と精度改善2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] サービス評価指標予測による重要意見抽出効果の検証2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語処理における英語のための自然言語処理data augmentation手法の有用性検証2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語自然言語処理におけるTASK2VECの検証2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 動物園の来場者予測におけるSNSデータの貢献2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 敵対的訓練によるドメイン適応を用いた転移学習手法のHR 分野への適用2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] BERT による政策の不確実性評価指標を用いた日経平均株価予測モデル2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] インフルエンサーツイート分類モデルと転移学習を用いた意見抽出システムの構築2020

著者名/発表者名

櫻井義尚明治大学, 総合数理学部, 専任教授 (30408653)