研究課題/領域番号 |
21K12017
|
研究機関 | 立教大学 |
研究代表者 |
正田 備也 立教大学, 人工知能科学研究科, 教授 (60413928)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | テキストマイニング / 機械学習 / 深層学習 / 埋め込み / 自動採点 |
研究実績の概要 |
本研究の目的は、コーパスに特殊的な文書エンコーダとしてのトピックモデルに、汎用性のある分散表現を与える文書エンコーダとしての言語モデルを組み合わせ、トピックモデルによるトピック抽出の質を向上させることであった。初年度は、トピックモデルの変分推論に、多層パーセプトロン(MLP)を用いた簡易的な単語埋め込みを組み合わせて変分推論を実現、定量評価するところまで達成した。 しかし、この手法には大きな問題のあることが判明した。提案手法は、変分オートエンコーダの枠組みを採用しなくても、通常のトピックモデルの変分下界をMLPによってreparameterizeすることで、同等の質のトピック抽出を可能にする手法として、提案された。しかし、提案手法では、トピックモデルの変分推論における変分E stepの更新式を2回実行する計算を、計算グラフ構成の際に実行していた。実は、この2回のE stepがトピック抽出の質を向上させていると、事後的な調査により分かった。つまり、reparameterizationの効果は、良い初期値を探す程度の効果にとどまっていた。 そこで、「コーパスの構成要素としての文書と単語列としての文書を架橋するトピックモデル」という元々の研究テーマに戻り、コーパス内での各文書の位置付けを明らかにする目的でトークン列としての文書の埋め込みを利用する、という観点から、課題を探し直した。そして見つけた課題が、エッセイの自動採点(AES)である。これは、学生と議論する中で学生から提案された課題である。エッセイの採点は、エッセイからなるコーパス内で個々のエッセイの位置付けを確定させることでもある。この課題に取り組んだ結果、Sentence BERTによるエッセイ埋め込みをうまく利用すれば、どんな出題がなされるか事前に分からない設定でも、採点をある程度自動化できそうであることが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度に実施した研究に問題があることが分かり、急遽、課題設定からやり直すこととなった。しかし、結果的に、エッセイの自動採点という、当初想定していたよりも直接社会に貢献できそうな課題を見つけることができた。また、この課題を見つけるにあたり、学生と議論する中で、コーパスに特殊的なテキストのエンコーディングについて、新たな観点を手にすることができた。 それは、BERTのような事前学習済みの言語モデルを利用することで、トピックモデルを使っている限りは実現できないような仕方で特定のコーパス内での各テキストの位置付けを明らかにする、という観点である。 トピックモデルを使っている限りは実現できないような仕方とは、英語なら英語の膨大なテキスト集合の中で、研究対象としているコーパスに属する個々のテキストがどのように位置づけられるかという情報を一旦経由することによって、そのコーパス内での同じテキストの位置付けを明らかにするという仕方である。 事前学習済みの言語モデルは、膨大な量のテキストを訓練データとして使うことでtrainingされている。そのため、どのようなテキストであれ、同じ空間に埋め込まれたベクトルとして、相互に比較可能な形で定量化できる。そこで、特定のコーパスに含まれるテキストを同じ言語モデルでベクトル化しておけば、それらの位置関係がすでに、テキストの意味内容の類似性を反映したものとなっている。 そして、分析の次の段階として、このベクトル集合がどのように空間内に散らばっているかを分析することによって、今度はコーパスに特殊的なテキストのエンコーディングを実現できる。今回の研究では、ここに主成分分析を用いた。つまり、コーパスに属する全テキストの埋め込みによって得られたベクトル集合の構造を抽出することで、各テキストの座標値をつけ直し、コーパスに特殊的なテキストのエンコーディングを実現した。
|
今後の研究の推進方策 |
初年度の研究に問題があることが分かり、課題の再設定を行うことになったものの、結果として得られた新たな観点は、研究のさらなる推進を可能とするものとなった。「コーパスの構成要素としての文書と単語列としての文書を架橋するトピックモデル」という元々の研究テーマは、今年度の試行錯誤を通じて、以下のように再定式化された。 (1) まず、分析対象のコーパスに属する全テキストを、事前学習済みの言語モデルを使って同じ空間に埋め込むことで、テキスト間の大局的な類似性を反映した定量化を行う。 (2) 次に、(1)で得られたベクトル集合に特有の潜在構造を抽出する。これは今までなら、テキストの疎な表現に対してトピックモデルを使って行っていた作業である。今回は主成分分析を用いたが、ベクトル集合に潜む構造を抽出できる他の手法を使う可能性もある。 (3) そして、(2)で抽出された構造を利用して、個々のテキストをエンコードし直す。主成分分析の場合は各主成分のスコアを座標値とすれば、低次元空間におけるベクトルとしてエンコードし直せる。他の手法を用いた場合でも、コーパスに特殊的な分析により基底として利用できる構造が抽出できるなら、同様の再エンコードを実現できる。 最終年度は、上記の新たな方策に依拠して研究を継続させる予定である。なお、今年度の研究で(2)の段階において主成分分析を使ったことに関しては、善い行為や悪い行為を記述したテキストをBERTによって埋め込み、主成分分析を適用すると、第一主成分として善悪の軸が抽出できたというSchramowskiらの研究(Nature Machine Intelligence, Vol.4, pp.258-268, 2022)がヒントになっている。今後は、コーパスを埋め込むことで得られるベクトル集合について、その潜在構造を抽出する様々な手法の利用を検討する。
|