2019 Fiscal Year Annual Research Report
Natural Language Understanding Based on Discourse Structure and Knowledge
Project/Area Number |
18J12366
|
Research Institution | The University of Tokyo |
Principal Investigator |
西田 典起 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2018-04-25 – 2020-03-31
|
Keywords | 自然言語処理 / 談話構造解析 / 教師なし学習 |
Outline of Annual Research Achievements |
2019年度は、昨年度に引き続き教師なし談話構造解析という問題に取り組んだ。教師なし談話構造解析とは、与えられた文章の構造を人手による教師情報なしに、文書集合から解析する技術である。本年度でも、修辞構造理論に基づき、一つの文書に対し一つの木構造を仮定した。本年度では特に、談話構造を構成する要素のうち構成素構造と核性構造の推定に焦点を当てて研究を行った。 まず、談話構成素構造の教師なし解析については、昨年度までの提案手法をさらに拡張した。RST-DTと英文ニュース記事を用いた実験によって、提案手法が既存の教師あり手法と同等、もしくはそれ以上の解析精度に到達することを示した。また、提案した初期化手法によって解析精度が9.1ポイント向上することがわかった。以上の結果は、英語論文として自然言語処理のトップ国際論文誌に採択された。 本年度の後半では教師なし談話核性分類という問題に取り組んだ。談話の核性とは、テキストスパン間の主従関係を表す情報であり、構成素構造および談話関係と補完的な関係にある。談話核性分類とは、より形式的には、結合する2つのテキストスパンのペアが与えられたときに、それらのうちどちらがもう一方の主要部であるかを同定するタスクであり、本研究ではそれを教師情報なしで行う。Carlsonら (2001) の削除テストという考え方に基づき、本研究ではそれを自動的に行う教師なし手法を提案した。すなわち、二つの談話関係によって結合するテキストスパンのうち、削除することによって文書の首尾一貫性がより損なわれてしまう方は、そうでない方に対する核と考える。RST-DTを用いた実験によって、提案手法がベースラインの教師なし分類器よりも高い正解率を達成することがわかった。以上の結果は、言語処理学会第26回年次大会で若手奨励賞を受賞し、それを拡張したものを現在、英語論文として投稿準備中である。
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|
Research Products
(2 results)