Project/Area Number |
21K12017
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Rikkyo University |
Principal Investigator |
Masada Tomonari 立教大学, 人工知能科学研究科, 教授 (60413928)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 機械学習 / テキストマイニング / 自然言語処理 / トピックモデル / 言語モデル / 深層学習 / 埋め込み / 自動採点 / ベイズ統計 |
Outline of Research at the Start |
トピックモデルは、特定の意図の下に収集されたコーパスのなかで各文書が持つ位置付けを明らかにする手法として優れており、また、コーパスに潜む多様な話題に対応する複数の単語リストを抽出することで多様なコンテンツの鳥瞰図を与える。一方、近年、文書を単語列として精緻にモデル化するBERT等のモデルが、深層学習分野で急発展している。BERTによるモデリングは、英語なら英語の単語列に一般的に見られる言語的特徴を反映できるため、汎用性を持つ。本研究は、トピックモデルとBERTを組み合わせ、個別のコーパス内での話題特定能力が強く、かつ、英語なら英語の一般的な言語的特徴も反映したトピック抽出の実現を目指す。
|
Outline of Final Research Achievements |
The aim of our study was to combine a topic model as a domain-specific encoder with a deep learning-based language model as a general-purpose encoder, in order to improve the quality of topic analysis. However, after starting this research, language models have shown a remarkable progress in effectiveness and efficiency. By using them for text embeddings and analyzing various corpora, we have found that a domain-specific encoder can be realized only by fine-tuning a language model. Not only topic modeling but also any text mining based solely on word frequencies no longer have any technical importance. Here is the conclusion of our study: We should now focus on how to utilize the text embeddings provided by language models in order to improve the quality of topic analysis.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の学術的意義は、従来ならミニバッチ式の変分推論で実践していたトピックモデリングを、事前学習済みの言語モデルを使ったテキスト埋め込みの利用により置き換える、定型的な手順を見つけた点にある。社会的意義は、変分推論の面倒を見なくてよい分、変分推論を十分に収束する前に止めてしまっている、ハイパーパラメータをチューニングしていない、等のミスが生じず、初心者でも失敗の可能性が低いトピック抽出を実現できる点にある。抽出されるトピックの質を上げるために言語モデルをファインチューニングする場合であっても、関連する技術情報がトピックモデルよりも豊富で見つけやすいため、初心者にも接近しやすい手順となっている。
|