• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

コーパスの構成要素としての文書と単語列としての文書を架橋するトピックモデル

研究課題

研究課題/領域番号 21K12017
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分61030:知能情報学関連
研究機関立教大学

研究代表者

正田 備也  立教大学, 人工知能科学研究科, 教授 (60413928)

研究期間 (年度) 2021-04-01 – 2024-03-31
研究課題ステータス 完了 (2023年度)
配分額 *注記
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード機械学習 / テキストマイニング / 自然言語処理 / トピックモデル / 言語モデル / 深層学習 / 埋め込み / 自動採点 / ベイズ統計
研究開始時の研究の概要

トピックモデルは、特定の意図の下に収集されたコーパスのなかで各文書が持つ位置付けを明らかにする手法として優れており、また、コーパスに潜む多様な話題に対応する複数の単語リストを抽出することで多様なコンテンツの鳥瞰図を与える。一方、近年、文書を単語列として精緻にモデル化するBERT等のモデルが、深層学習分野で急発展している。BERTによるモデリングは、英語なら英語の単語列に一般的に見られる言語的特徴を反映できるため、汎用性を持つ。本研究は、トピックモデルとBERTを組み合わせ、個別のコーパス内での話題特定能力が強く、かつ、英語なら英語の一般的な言語的特徴も反映したトピック抽出の実現を目指す。

研究成果の概要

本研究の目的は、コーパスに特殊的なエンコーダとしてのトピックモデルに、汎用的なエンコーダとしての言語モデルを組み合わせ、トピック分析の質を向上させることだった。しかし、本研究開始後に急速に高性能化・高効率化した言語モデルをテキスト埋め込みに使い、様々なコーパスの分析を実施してみると、コーパスに特殊的なエンコーダは言語モデルのファインチューニングで十分実現できると分かった。トピックモデルに限らず、単語の出現頻度だけを基礎データとしてテキストマイニングを実現することにもはや技術的な意味はなく、今後は言語モデルの与える埋め込みをどう利用するかという課題に取り組むべきである。これが本研究の結論である。

研究成果の学術的意義や社会的意義

本研究の学術的意義は、従来ならミニバッチ式の変分推論で実践していたトピックモデリングを、事前学習済みの言語モデルを使ったテキスト埋め込みの利用により置き換える、定型的な手順を見つけた点にある。社会的意義は、変分推論の面倒を見なくてよい分、変分推論を十分に収束する前に止めてしまっている、ハイパーパラメータをチューニングしていない、等のミスが生じず、初心者でも失敗の可能性が低いトピック抽出を実現できる点にある。抽出されるトピックの質を上げるために言語モデルをファインチューニングする場合であっても、関連する技術情報がトピックモデルよりも豊富で見つけやすいため、初心者にも接近しやすい手順となっている。

報告書

(4件)
  • 2023 実績報告書   研究成果報告書 ( PDF )
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (5件)

すべて 2024 2022 2021

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件) (うち国際学会 2件)

  • [雑誌論文] Sentence-BERT Distinguishes Good and Bad Essays in Cross-prompt Automated Essay Scoring2022

    • 著者名/発表者名
      Sasaki Toru、Masada Tomonari
    • 雑誌名

      Proceedings of 2022 IEEE International Conference on Data Mining Workshops (ICDMW)

      巻: 1 ページ: 274-281

    • DOI

      10.1109/icdmw58026.2022.00045

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [雑誌論文] AmLDA: A Non-VAE Neural Topic Model2022

    • 著者名/発表者名
      Tomonari MASADA
    • 雑誌名

      Springer Communications in Computer and Information Science

      巻: 1577 ページ: 281-295

    • DOI

      10.1007/978-3-031-04447-2_19

    • ISBN
      9783031044465, 9783031044472
    • 関連する報告書
      2021 実施状況報告書
    • 査読あり
  • [学会発表] 言語モデルを使用した日本文学の感情展開と分類2024

    • 著者名/発表者名
      冨名腰哲,正田備也
    • 学会等名
      情報処理学会 第86回全国大会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] Sentence-BERT Distinguishes Good and Bad Essays in Cross-prompt Automated Essay Scoring2022

    • 著者名/発表者名
      Toru Sasaki
    • 学会等名
      The 1st Workshop on Data Mining in Learning Science (at the 22nd IEEE International Conference on Data Mining, ICDM2022)
    • 関連する報告書
      2022 実施状況報告書
    • 国際学会
  • [学会発表] AmLDA: A Non-VAE Neural Topic Model2021

    • 著者名/発表者名
      正田備也
    • 学会等名
      8th International Conference on Information Management and Big Data (SIMBig 2021)
    • 関連する報告書
      2021 実施状況報告書
    • 国際学会

URL: 

公開日: 2021-04-28   更新日: 2025-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi