2023 年度研究成果報告書

コーパスの構成要素としての文書と単語列としての文書を架橋するトピックモデル

研究課題

PDF

研究課題/領域番号	21K12017
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	立教大学
研究代表者	正田備也立教大学, 人工知能科学研究科, 教授 (60413928)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	機械学習 / テキストマイニング / 自然言語処理 / トピックモデル / 言語モデル
研究成果の概要	本研究の目的は、コーパスに特殊的なエンコーダとしてのトピックモデルに、汎用的なエンコーダとしての言語モデルを組み合わせ、トピック分析の質を向上させることだった。しかし、本研究開始後に急速に高性能化・高効率化した言語モデルをテキスト埋め込みに使い、様々なコーパスの分析を実施してみると、コーパスに特殊的なエンコーダは言語モデルのファインチューニングで十分実現できると分かった。トピックモデルに限らず、単語の出現頻度だけを基礎データとしてテキストマイニングを実現することにもはや技術的な意味はなく、今後は言語モデルの与える埋め込みをどう利用するかという課題に取り組むべきである。これが本研究の結論である。
自由記述の分野	機械学習
研究成果の学術的意義や社会的意義	本研究の学術的意義は、従来ならミニバッチ式の変分推論で実践していたトピックモデリングを、事前学習済みの言語モデルを使ったテキスト埋め込みの利用により置き換える、定型的な手順を見つけた点にある。社会的意義は、変分推論の面倒を見なくてよい分、変分推論を十分に収束する前に止めてしまっている、ハイパーパラメータをチューニングしていない、等のミスが生じず、初心者でも失敗の可能性が低いトピック抽出を実現できる点にある。抽出されるトピックの質を上げるために言語モデルをファインチューニングする場合であっても、関連する技術情報がトピックモデルよりも豊富で見つけやすいため、初心者にも接近しやすい手順となっている。