2019 Fiscal Year Annual Research Report
Text Summarization Based on the Combination of Neural Models and Optimization Technologies
Project/Area Number |
17H01786
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
Co-Investigator(Kenkyū-buntansha) |
平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
高村 大也 東京工業大学, 科学技術創成研究院, 教授 (80361773)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 自然言語処理 |
Outline of Annual Research Achievements |
今年度はニューラルモデルを用いた要約手法の性能向上を図るため,1) 構文,談話情報を組み込んだニューラル要約モデルの提案,2) 1)のモデルを構築するのに不可欠な談話構造解析の新しい手法の提案を行った.1)では,構文木の情報を考慮した文圧縮手法,談話構造解析木の情報を考慮した文選択手法を提案した.Sequence-to-Sequence (Seq2Seq)モデルに基づく文圧縮では,すでに圧縮文に採用された単語列とこれから圧縮文に採用しようとする単語との間の文法的な依存関係を明示的に捉えることが難しいため,デコード時に階層的な注意機構に基づき構文的な先読みを行うことが可能なSeq2Seqモデルを提案した.また,Seq2Seqモデルに基づく文抽出手法が単一文書要約において良い性能を示している.この手法は原文書を文の系列とみなし文の重要度を決定し,文間の談話構造は明示的には利用しない.談話構造に関する情報の欠如は重要度スコア決定における性能劣化や出力要約の一貫性の低下を引き起こす可能性がある.そこで,談話構造解析器の解析誤りによる影響を抑えながらSeq2Seqモデルを用いた要約の利点を活用するため,原文書の談話構造と文の重要度スコアリングを同時に学習する新たな枠組みを提案した.
一方2)では,教師あり,教師なしの2つの談話構造解析手法を提案したが,提案した教師あり手法は,現在の世界最高性能を達成している.従来の談話構造解析手法の多くは葉ノードであるEDUから開始し,それらをボトムアップに組み上げていくことで談話構造木を構築している.しかし,ボトムアップな解析手法は出力結果が葉ノード近辺の解析結果に依存しやすくなってしまう傾向があり,応用タスクにおいて利用価値が高い情報が根ノード近辺に存在していることから望ましくない.この問題を踏まえトップダウンに談話構造解 析を行う手法を提案した.
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|