研究課題/領域番号 |
21K12017
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 立教大学 |
研究代表者 |
正田 備也 立教大学, 人工知能科学研究科, 教授 (60413928)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 機械学習 / テキストマイニング / 自然言語処理 / トピックモデル / 言語モデル / 深層学習 / 埋め込み / 自動採点 / ベイズ統計 |
研究開始時の研究の概要 |
トピックモデルは、特定の意図の下に収集されたコーパスのなかで各文書が持つ位置付けを明らかにする手法として優れており、また、コーパスに潜む多様な話題に対応する複数の単語リストを抽出することで多様なコンテンツの鳥瞰図を与える。一方、近年、文書を単語列として精緻にモデル化するBERT等のモデルが、深層学習分野で急発展している。BERTによるモデリングは、英語なら英語の単語列に一般的に見られる言語的特徴を反映できるため、汎用性を持つ。本研究は、トピックモデルとBERTを組み合わせ、個別のコーパス内での話題特定能力が強く、かつ、英語なら英語の一般的な言語的特徴も反映したトピック抽出の実現を目指す。
|
研究成果の概要 |
本研究の目的は、コーパスに特殊的なエンコーダとしてのトピックモデルに、汎用的なエンコーダとしての言語モデルを組み合わせ、トピック分析の質を向上させることだった。しかし、本研究開始後に急速に高性能化・高効率化した言語モデルをテキスト埋め込みに使い、様々なコーパスの分析を実施してみると、コーパスに特殊的なエンコーダは言語モデルのファインチューニングで十分実現できると分かった。トピックモデルに限らず、単語の出現頻度だけを基礎データとしてテキストマイニングを実現することにもはや技術的な意味はなく、今後は言語モデルの与える埋め込みをどう利用するかという課題に取り組むべきである。これが本研究の結論である。
|
研究成果の学術的意義や社会的意義 |
本研究の学術的意義は、従来ならミニバッチ式の変分推論で実践していたトピックモデリングを、事前学習済みの言語モデルを使ったテキスト埋め込みの利用により置き換える、定型的な手順を見つけた点にある。社会的意義は、変分推論の面倒を見なくてよい分、変分推論を十分に収束する前に止めてしまっている、ハイパーパラメータをチューニングしていない、等のミスが生じず、初心者でも失敗の可能性が低いトピック抽出を実現できる点にある。抽出されるトピックの質を上げるために言語モデルをファインチューニングする場合であっても、関連する技術情報がトピックモデルよりも豊富で見つけやすいため、初心者にも接近しやすい手順となっている。
|