研究課題/領域番号 |
18J12366
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
ソフトコンピューティング
|
研究機関 | 東京大学 |
研究代表者 |
西田 典起 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2018-04-25 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
1,500千円 (直接経費: 1,500千円)
2019年度: 700千円 (直接経費: 700千円)
2018年度: 800千円 (直接経費: 800千円)
|
キーワード | 自然言語処理 / 談話構造解析 / 教師なし学習 / 文法推定 |
研究実績の概要 |
2019年度は、昨年度に引き続き教師なし談話構造解析という問題に取り組んだ。教師なし談話構造解析とは、与えられた文章の構造を人手による教師情報なしに、文書集合から解析する技術である。本年度でも、修辞構造理論に基づき、一つの文書に対し一つの木構造を仮定した。本年度では特に、談話構造を構成する要素のうち構成素構造と核性構造の推定に焦点を当てて研究を行った。 まず、談話構成素構造の教師なし解析については、昨年度までの提案手法をさらに拡張した。RST-DTと英文ニュース記事を用いた実験によって、提案手法が既存の教師あり手法と同等、もしくはそれ以上の解析精度に到達することを示した。また、提案した初期化手法によって解析精度が9.1ポイント向上することがわかった。以上の結果は、英語論文として自然言語処理のトップ国際論文誌に採択された。 本年度の後半では教師なし談話核性分類という問題に取り組んだ。談話の核性とは、テキストスパン間の主従関係を表す情報であり、構成素構造および談話関係と補完的な関係にある。談話核性分類とは、より形式的には、結合する2つのテキストスパンのペアが与えられたときに、それらのうちどちらがもう一方の主要部であるかを同定するタスクであり、本研究ではそれを教師情報なしで行う。Carlsonら (2001) の削除テストという考え方に基づき、本研究ではそれを自動的に行う教師なし手法を提案した。すなわち、二つの談話関係によって結合するテキストスパンのうち、削除することによって文書の首尾一貫性がより損なわれてしまう方は、そうでない方に対する核と考える。RST-DTを用いた実験によって、提案手法がベースラインの教師なし分類器よりも高い正解率を達成することがわかった。以上の結果は、言語処理学会第26回年次大会で若手奨励賞を受賞し、それを拡張したものを現在、英語論文として投稿準備中である。
|
現在までの達成度 (段落) |
令和元年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和元年度が最終年度であるため、記入しない。
|