研究課題/領域番号 |
17H01786
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 東京工業大学 |
研究代表者 |
奥村 学 東京工業大学, 科学技術創成研究院, 教授 (60214079)
|
研究分担者 |
平尾 努 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 主任研究員 (40396148)
高村 大也 東京工業大学, 科学技術創成研究院, 教授 (80361773)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
17,550千円 (直接経費: 13,500千円、間接経費: 4,050千円)
2019年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2018年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2017年度: 7,670千円 (直接経費: 5,900千円、間接経費: 1,770千円)
|
キーワード | 自然言語処理 / テキスト要約 / 深層学習 / 離散最適化 |
研究成果の概要 |
ニューラルモデルを用いた要約手法の性能向上を図るため,1) 構文,談話情報を組み込んだニューラル要約モデルの提案,2) 1)のモデルを構築するのに不可欠な談話構造解析の新しい手法の提案を行った.1)では,構文木の情報を考慮した文圧縮手法,談話構造解析木の情報を考慮した文選択手法を提案した.一方2)では,教師あり,教師なしの2つの談話構造解析手法を提案したが,提案した教師あり手法は,現在の世界最高性能を達成している.
|
研究成果の学術的意義や社会的意義 |
Sequence-to-Sequence (Seq2Seq)モデルに基づく文圧縮では,すでに圧縮文に採用された単語列とこれから圧縮文に採用しようとする単語との間の文法的な依存関係を明示的に捉える事が難しい為,デコード時に階層的な注意機構に基づき構文的な先読みを行う事が可能なモデルを提案した.Seq2Seqモデルに基づく抽出型手法が単一文書要約において良い性能を示しているが,文間の談話構造は明示的には利用しない.談話構造に関する情報の欠如は,重要度スコア決定における性能劣化や出力要約の一貫性の低下を引き起こす為,原文書の談話構造と文の重要度スコアリング器を同時に学習する新たな枠組みを提案した.
|