• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Construction of efficient machine learning models using domain knowledge

Research Project

Project/Area Number 20K11960
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionMeiji University

Principal Investigator

櫻井 義尚  明治大学, 総合数理学部, 専任教授 (30408653)

Co-Investigator(Kenkyū-buntansha) 櫻井 恵里子  産業能率大学, 経営学部, 准教授 (00763567)
Project Period (FY) 2020-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords機械学習 / 転移学習 / ドメイン知識 / メタラーニング / 自然言語処理 / 蒸留モデル / 疑似データ / 大規模言語モデル / 教師データ / タスクベクトル / ルールベース
Outline of Research at the Start

本研究の目的は、大量の教師データだけに頼らず、ドメイン知識やノウハウを活用することで、少ない教師データから精度の高い機械学習モデルを構築することである。
現在、機械学習による高精度な予測、分類を実現するためには、教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが、実問題への適用では、「十分なデータが用意できない」、「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。本研究では、ルールベースシステムと深層学習などの機械学習モデルを組合せる事で高精度・高信頼な機械学習モデルを構築する手法を開発する。

Outline of Annual Research Achievements

本研究の目的は,大量の教師データだけに頼らず,ドメイン知識やノウハウを活用することで,少ない教師データから精度の高い機械学習モデルを構築することである。現在,機械学習による高精度な予測,分類を実現するためには,教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが,実問題への適用では,「十分なデータが用意できない」,「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。そこで,ドメイン知識を活用することで,データ不足を補う方法について,実験と検証を進めた。
今年度は特に,大規模言語モデルを活用した疑似データ生成,データ変換やData Augmentation手法を中心に研究を進めた。Data Augmentationは教師データを増やす手法である。画像処理では類似画像が作り易く,有効性が高いためによく利用されるが,自然言語処理では,課題が多い。日本語特有のドメイン知識を用いたData Augmentation手法,大規模言語モデルからの有効な知識抽出,疑似データによる精度改善について検証を行った。
応用課題としては,マーケティングなど市場調査において重要となるSNSからの意見抽出,市場環境を把握するための自然言語処理において,検証を行い,学会発表を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

TwitterがXに変わり,データの収集環境が大きく変わり,実験に必要なデータ収集が難しくなるなどの困難があり,他のメディアの検討やAPIの変更などの対応に大きく時間を取られたが, 転移学習や疑似データ生成を中心に教師データが少ない場合に関連するデータやモデルを活用して精度の高い機械学習モデルを構築するための知見が得られており,学会発表も行えたことから,おおむね順調に研究は進展しているものと判断する。

Strategy for Future Research Activity

大規模言語モデルの大幅な発展から自然言語処理関連の分野では,新しい大規模言語モデルでの検証が必須な状況が続いている。研究計画を変更して,これに関わる検証を進めていく。その上で,これらの検証結果に基づき少ない教師データから精度の高い機械学習モデルを構築するためのアルゴリズム,データ,大規模言語モデルの有効な利用方法についての研究を進めていく。

Report

(4 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • 2021 Research-status Report
  • 2020 Research-status Report
  • Research Products

    (18 results)

All 2024 2023 2021 2020

All Journal Article (2 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 2 results) Presentation (16 results)

  • [Journal Article] Opinion Classifier Transfer Learning from Review Data2023

    • Author(s)
      Ozeki Jin、Sakurai Yoshitaka、Terada Yuna
    • Journal Title

      Proc of 2023 IEEE Symposium Series on Computational Intelligence (SSCI2023)

      Volume: 2023 Pages: 329-334

    • DOI

      10.1109/ssci52147.2023.10371812

    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Journal Article] Embodiment matters: toward culture-specific robotized counselling2020

    • Author(s)
      E. Sakurai, K. Kurashige, S. Tsuruta, Y. Sakurai, R. Knauf, E. Damiani, A. Kutics, F. Frati
    • Journal Title

      Journal of Reliable Intelligent Environments

      Volume: 6 Issue: 3 Pages: 129-139

    • DOI

      10.1007/s40860-020-00109-y

    • Related Report
      2020 Research-status Report
    • Peer Reviewed / Int'l Joint Research
  • [Presentation] Twitterデータを用いたヘビーユーザ特定2024

    • Author(s)
      小川歩, 鈴木愛海, 櫻井義尚
    • Organizer
      言語処理学会 第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] ヘイトスピーチ検出における GPT-4 による擬似ラベル付与の手法と評価2024

    • Author(s)
      倉嶋将矢, 鍛原大成, 櫻井義尚
    • Organizer
      言語処理学会 第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] 日本語ヘイトスピーチ検出における疑似ラベルを用いた精度向上効果の検証2024

    • Author(s)
      鍛原大成, 倉嶋将矢, 櫻井義尚
    • Organizer
      言語処理学会 第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] 楽天レビューモデルからの知識蒸留を用いた意見判別モデル2023

    • Author(s)
      尾関迅, 櫻井義尚
    • Organizer
      第85回情報処理学会全国大会
    • Related Report
      2022 Research-status Report
  • [Presentation] キャラクターの顔領域の情報を用いたイラスト作者推定2023

    • Author(s)
      笠松慎之介, 櫻井義尚
    • Organizer
      第85回情報処理学会全国大会
    • Related Report
      2022 Research-status Report
  • [Presentation] 複数蒸留モデルのパラメータ探索と最適なモデルの提示2023

    • Author(s)
      船田毅, 櫻井義尚
    • Organizer
      第85回情報処理学会全国大会
    • Related Report
      2022 Research-status Report
  • [Presentation] BERT を用いたフィルタリングによる Twitter からの教師データ作成手法2023

    • Author(s)
      金澤滉典, 櫻井義尚
    • Organizer
      第85回情報処理学会全国大会
    • Related Report
      2022 Research-status Report
  • [Presentation] SNS を用いた株価の騰落予測におけるツイート抽出方法の比較検証2023

    • Author(s)
      安田健士郎, 櫻井義尚
    • Organizer
      第85回情報処理学会全国大会
    • Related Report
      2022 Research-status Report
  • [Presentation] ツイートデータを活用した意見抽出モデルの構築と精度改善2023

    • Author(s)
      間明拓海, 櫻井義尚
    • Organizer
      第85回情報処理学会全国大会
    • Related Report
      2022 Research-status Report
  • [Presentation] サービス評価指標予測による重要意見抽出効果の検証2023

    • Author(s)
      矢口一晟, 櫻井義尚
    • Organizer
      第85回情報処理学会全国大会
    • Related Report
      2022 Research-status Report
  • [Presentation] 日本語処理における英語のための自然言語処理data augmentation手法の有用性検証2021

    • Author(s)
      仲宗根太朗, 櫻井義尚
    • Organizer
      第84回情報処理学会全国大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 日本語自然言語処理におけるTASK2VECの検証2021

    • Author(s)
      高橋司, 櫻井義尚
    • Organizer
      第84回情報処理学会全国大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 動物園の来場者予測におけるSNSデータの貢献2021

    • Author(s)
      鈴木耀司, 櫻井義尚
    • Organizer
      第84回情報処理学会全国大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 敵対的訓練によるドメイン適応を用いた転移学習手法のHR 分野への適用2020

    • Author(s)
      行武俊秀, 櫻井義尚
    • Organizer
      第83回情報処理学会全国大会
    • Related Report
      2020 Research-status Report
  • [Presentation] BERT による政策の不確実性評価指標を用いた日経平均株価予測モデル2020

    • Author(s)
      小野俊輔, 櫻井義尚
    • Organizer
      第83回情報処理学会全国大会
    • Related Report
      2020 Research-status Report
  • [Presentation] インフルエンサーツイート分類モデルと転移学習を用いた意見抽出システムの構築2020

    • Author(s)
      間明拓海, 櫻井義尚
    • Organizer
      第83回情報処理学会全国大会
    • Related Report
      2020 Research-status Report

URL: 

Published: 2020-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi