2023 Fiscal Year Annual Research Report
Topic models bridging between documents as members composing a corpus and documents as sequences composed by words
Project/Area Number |
21K12017
|
Research Institution | Rikkyo University |
Principal Investigator |
正田 備也 立教大学, 人工知能科学研究科, 教授 (60413928)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | テキストマイニング / 機械学習 / トピックモデル / 深層学習 / 埋め込み |
Outline of Annual Research Achievements |
本研究の目的は、コーパスに特殊的な文書エンコーダとしてのトピックモデルに、汎用性のある分散表現を与える文書エンコーダとしての言語モデルを組み合わせ、トピック抽出の質を向上させることだった。しかし、高性能な言語モデルを気軽に利用できるようになり、コーパスに特殊的な文書エンコーダを、トピックモデルであれ何であれ、言語モデルとは別に作成することの技術的な意義が薄らいできた。そこで2年目から「コーパスの構成要素としての文書と単語列としての文書を架橋するトピックモデル」という本来の研究テーマに戻り、単語列としての文書のモデリングが得意な深層学習言語モデルによる埋め込みを利用することによりコーパス内での各文書の位置付けを明らかにする方向へ、軌道修正した。昨年度のエッセイの自動採点、そして今年度の論文タイトルからの研究トレンド抽出、小説の感情曲線の典型的なパターンの抽出、アーティストごとの歌詞内容の相違の分析など、指導学生の取り組みも含めたいくつかのテストケースを通じて、以下の2つのことが明らかになった。(1)潜在的ディリクレ配分法(LDA)とほぼ同じことが、言語モデルによって得た埋め込みベクトルをクラスタリングし、重心に近い埋め込みベクトルを持つ単語により各クラスタをラベリングするだけで実現できる。(2)コーパスに特殊的なテキストマイニングを実施するには、言語モデルとは別にLDAのような古典的な機械学習モデルをその都度訓練するのではなく、そのコーパスを使って言語モデルをファインチューニングする方が良い。以上が本研究で得た知見である。パラメータ数が数億の言語モデルによる埋め込みは、Google Colab上でも高速に実行できる。この程度に効果的かつ効率的な言語モデルを、テキストマイニングに使わない手があるだろうか。これからのテキストマイニングは、言語モデルを避けることはできなさそうだ。
|