研究課題/領域番号 |
22K17943
|
研究機関 | 東北大学 |
研究代表者 |
赤間 怜奈 東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 自然言語処理 / 深層学習 / ニューラルネットワーク / 人工知能 |
研究実績の概要 |
本研究は、深層学習型文生成技術が抱える内容的多様性の欠如を解決すべき課題として切り出し、現在の文生成モデルが既に有している理想的な表層的多様性を維持しつつ、欠点である内容的多様性の改善に取り組むものである。これを達成するために、具体的には、深層学習型生成モデルの内部で内容的多様性の欠落が生じるメカニズムの解明と、そこで得られた知見に基づき生成時に内容的多様性を保持する仕組みの確立を目指す。 1年目にあたる本年度は、表層的多様性および内容的多様性に焦点を当てたモデル横断的な性能調査・分析に関する研究に着手した。目的は、モデル毎の生成能力や同定能力の上限を正確に把握することと、内容的多様性の扱いに適正のある構造に対して知見を得ることにある。初手として、既存の文生成タスクの中でも、内容的多様性がタスク要件における特に重要な要素となる対話応答生成タスクを題材とした。最近の高性能対話応答生成モデルを対象に、モデル構造と照らし合わせて多様性に関するモデルの振る舞いを調査することに加え(成果は複数の国際会議で発表)、より精緻な分析を可能にする新しい言語資源の開発にも取り組んだ。新たに開発した分析用対話コーパスは、基本語彙と基本語順を使用した規範的な言語表現で書かれた高品質な対話を収録したものである。既存資源と同等または上回る語彙的多様性、親密性、可読性をバランスよく兼ね備えており、構築方法の工夫によってノイズ等もほとんど含まないため計算機上での処理もしやすい。成果は、自然言語処理分野の国内最大の学会である言語処理学会で発表した。本資源の学術的価値は分野で高く評価され、言語資源賞を授与された。 今後は、今回構築したコーパスも利用しながら引き続きモデル横断的な分析を進めるとともに、分析結果をもとに、深層学習型生成モデルで内容的多様性の欠落が生じるメカニズムの数理的解明にも着手していく。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初の計画どおり、まずは、表層的多様性および内容的多様性に焦点を当てたモデル横断的な性能調査・分析に関する研究に着手した。内容的多様性がタスク要件における特に重要な要素となる対話応答生成タスクを題材に、既存の対話応答生成モデルの振る舞いを調査した。生成モデルの多様性を構成する諸要素にそれぞれ着目した詳細な分析をおこない、最近の深層学習型生成モデルについてモデル構造と生成の傾向についての知見を収集することができた。その過程で、本研究課題の遂行には、既存のデータセットに加えて新たな分析用データセットの需要も判明したため、当初の計画にこそ含まれていないが、必要なデータセットの開発も並行しておこなった。予定していたモデル横断的な性能調査・分析に加え、分析用資源の開発も実現できたという点で、本研究加害は、現時点では当初の計画以上に進展しているといえる。
|
今後の研究の推進方策 |
基本的には当初の計画通りに研究を推進していく予定である。現時点では、研究計画の変更や見直し等は特には必要性ないと考える。モデル横断的な性能調査・分析については、新たに公開される最新モデルも調査・分析対象に適宜含めつつ、今回新たに構築したコーパスも利用しながらより精緻な分析を進めていく。分析結果をもとに、深層学習型生成モデルで内容的多様性の欠落が生じるメカニズムの解明にも本格的に着手していく予定である。
|
次年度使用額が生じた理由 |
マシンスペックと納入期限の都合で、ローカル開発用計算機の購入を次年度へ持ち越しとした。状況が整い次第、次年度使用額を用いて購入する予定である。
|