研究課題/領域番号 |
19K20339
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京工業大学 |
研究代表者 |
上垣外 英剛 東京工業大学, 科学技術創成研究院, 助教 (40817649)
|
研究期間 (年度) |
2019-04-01 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | 自動要約 / 文抽出 / 文圧縮 / 自然言語生成 / 文書要約 / 深層学習 / BERT / 注意機構 / 依存構造木 / 段階的な要約 / エンコーダ・デコーダ / アテンション |
研究開始時の研究の概要 |
本研究では、実際に段階的な要約の生成過程を考慮したニューラルネットワークに基づく生成型の文書要約器を実装し、長い文書を正しく要約することが可能となるかの確認を行う。また、生成過程では内部でどのような要約が仮定されているかの確認についても行う。そして、モデル内部で仮定された要約の生成過程と、人間が要約を行う際の手順を比較し、類似している点と異なっている点についての調査を行う。この調査により、ニューラルネットワーク上で生成的な要約を行う際に適切な手順やネットワークの構造についても明らかにする。
|
研究成果の概要 |
ニューラルネットワークに基づく既存の文書要約手法において、人間の様に文の抽出、圧縮、書き換えを伴う段階的な要約を実現するために、既存の要約手法を援用可能な様々なドメインで動作可能な頑健な文圧縮器を作成した。この文圧縮器の作成過程で、事前学習された単語ベクトルの利用が性能向上に寄与することが判明したため、単語ベクトルを外部知識を用いて補強する際に必要となる知識グラフの埋め込みについても調査し、学習時に適した損失関数を選択するための理論的な背景を示した。最終的に作成した文圧縮器を既存の文書要約手法に組み込んだ結果、文抽出要約の設定において、自動評価の観点から性能の向上が確認された。
|
研究成果の学術的意義や社会的意義 |
文書の自動要約はデジタル文書が増加するインターネット社会において、読者が情報の取捨選択を行う際に重要な技術であると考えられる。本研究では要約生成時の動作が隠蔽されている既存のニューラルネットワークに基づく文書要約手法とは異なり、実際に要約が生成される過程が明確であるため、獲得したい要約結果の調整が容易であるという点で有用である。また文圧縮過程において使用される単語情報に外部知識を反映可能であるため、既存の文書圧縮手法に比べより多くのドメインでの動作が期待できる。これはニュース記事のみならずブログ記事やレビュー投稿等も対象とすることが可能である点で適用範囲が広く有用である。
|