2021 Fiscal Year Annual Research Report
対話情報処理のための知識に基づく適応性・即応性の高い深層学習モデル
Project/Area Number |
21H03494
|
Research Institution | The University of Tokyo |
Principal Investigator |
吉永 直樹 東京大学, 生産技術研究所, 准教授 (90773961)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 適応的言語処理 / 対話情報処理 / 深層学習 / 知識獲得 |
Outline of Annual Research Achievements |
(1) まず、大規模テキストから学習された基盤モデルがどのような形で知識を保持しているかを分析した。具体的には、モデルを構成する最小要素である内部ベクトル表現(以下、ニューロン)に注目し、モデルを用いて大規模テキストを処理して各ニューロンが強く活性化する文の集合を収集し、得られた文に高頻度で現れる言語表現をマイニングすることで、ニューロンが捉える知識を発見する手法を開発した。提案手法を用いて標準的基盤モデルBERTを分析したところ、人物名など、知識に相当する情報を捉えるニューロンが存在することが明らかとなった。このことから、モデルが宣言的知識を間接的に保持しており、モデルサイズにより、保持できる知識の量に限界があることが示唆された。 (2) 対話情報処理においては、新製品など新しい事物(エンティティ)に関する話題の理解が重要となるが、基盤モデルに限らず過去のテキストで学習されたモデルは新事物に関する知識を有しておらず、最新の話題を理解することが難しい。そこで、以前、開発したマイクロブログのテキストストリームから新事物を発見する手法を拡張し、事物のカテゴリを同時に推定する手法を開発した。これにより、新エンティティに関する知識を知識グラフとして構造化してモデルに追加入力することが可能となった。また、新事物について言語で書かれた情報は必ずしも多くないため、エンティティをクエリとする検索で得られる画像を用いることの有効性を検証した。具体的に、固有表現抽出タスクにおいて、入力中のトークンをクエリとして得られる画像を追加入力したところ、タスクの精度が向上した。このことから、画像情報を知識として用いることの有効性が示された。 (3) 対話情報処理の応用として、音声対話のリアルタイム要約の実現可能性を検証したが、音声認識誤りの混入の影響が大きく、この点を解消する必要があることが明らかとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の研究開発により、深層学習モデルが知識をどのように保持しているかが明らかとなった。さらに、深層学習モデルに追加入力する知識として、実世界の事物に関する知識グラフをテキストからリアルタイムに構築する手法も整備できた。また、知識グラフを用いる深層学習モデルに関しても検討を進めており、全体として順調に進展している。
|
Strategy for Future Research Activity |
今後は本年度の成果を踏まえて、入力を理解するために必要な知識を動的に検索する深層学習モデルの開発を行う。本年度の研究で得られた知見から、深層学習モデルの改善に役立つ知識は必ずしも知識グラフのように構造化された知識に留まらないことが分かったため、(1) 構造化された知識を検索・参照して活用するモデルに加えて、(2) 構造化されていない知識(テキスト断片)を知識として活用するモデルの検討も行う。以上の研究は、知識の核となる実世界の事物に関する情報を扱う情報抽出タスクや雑談応答生成タスクを中心に行う。 (1) 構造化された知識を検索・参照するモデル 構造化された知識としては、エンティティに関する知識(ベクトル表現)や、事物の属性/値のような関係知識(知識グラフ)を想定する。前者はエンティティリンキング、後者は属性/値抽出タスクを通してモデルの設計を行い、その有効性を評価する。 (2) 構造化されていない知識を活用するモデル 構造化されない知識としては、応答生成タスクにおいて、特定のユーザが対話システムと過去に行った会話や、エンティティに関して検索して得られる文書などが挙げられる。本年度は応答生成タスクを中心に研究を進めて、有効な知識を検索するためのクエリやキー、またバリューの設計に焦点を当てる。
|