研究課題/領域番号 |
21K12017
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 立教大学 |
研究代表者 |
正田 備也 立教大学, 人工知能科学研究科, 教授 (60413928)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | テキストマイニング / 機械学習 / トピックモデル / 深層学習 / 埋め込み / 自動採点 / ベイズ統計 |
研究開始時の研究の概要 |
トピックモデルは、特定の意図の下に収集されたコーパスのなかで各文書が持つ位置付けを明らかにする手法として優れており、また、コーパスに潜む多様な話題に対応する複数の単語リストを抽出することで多様なコンテンツの鳥瞰図を与える。一方、近年、文書を単語列として精緻にモデル化するBERT等のモデルが、深層学習分野で急発展している。BERTによるモデリングは、英語なら英語の単語列に一般的に見られる言語的特徴を反映できるため、汎用性を持つ。本研究は、トピックモデルとBERTを組み合わせ、個別のコーパス内での話題特定能力が強く、かつ、英語なら英語の一般的な言語的特徴も反映したトピック抽出の実現を目指す。
|
研究実績の概要 |
本研究の目的は、コーパスに特殊的な文書エンコーダとしてのトピックモデルに、汎用性のある分散表現を与える文書エンコーダとしての言語モデルを組み合わせ、トピック抽出の質を向上させることだった。しかし、高性能な言語モデルを気軽に利用できるようになり、コーパスに特殊的な文書エンコーダを、トピックモデルであれ何であれ、言語モデルとは別に作成することの技術的な意義が薄らいできた。そこで2年目から「コーパスの構成要素としての文書と単語列としての文書を架橋するトピックモデル」という本来の研究テーマに戻り、単語列としての文書のモデリングが得意な深層学習言語モデルによる埋め込みを利用することによりコーパス内での各文書の位置付けを明らかにする方向へ、軌道修正した。昨年度のエッセイの自動採点、そして今年度の論文タイトルからの研究トレンド抽出、小説の感情曲線の典型的なパターンの抽出、アーティストごとの歌詞内容の相違の分析など、指導学生の取り組みも含めたいくつかのテストケースを通じて、以下の2つのことが明らかになった。(1)潜在的ディリクレ配分法(LDA)とほぼ同じことが、言語モデルによって得た埋め込みベクトルをクラスタリングし、重心に近い埋め込みベクトルを持つ単語により各クラスタをラベリングするだけで実現できる。(2)コーパスに特殊的なテキストマイニングを実施するには、言語モデルとは別にLDAのような古典的な機械学習モデルをその都度訓練するのではなく、そのコーパスを使って言語モデルをファインチューニングする方が良い。以上が本研究で得た知見である。パラメータ数が数億の言語モデルによる埋め込みは、Google Colab上でも高速に実行できる。この程度に効果的かつ効率的な言語モデルを、テキストマイニングに使わない手があるだろうか。これからのテキストマイニングは、言語モデルを避けることはできなさそうだ。
|