研究課題/領域番号 |
20J10726
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
磯沼 大 東京大学, 工学系研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2020-04-24 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
1,700千円 (直接経費: 1,700千円)
2021年度: 800千円 (直接経費: 800千円)
2020年度: 900千円 (直接経費: 900千円)
|
キーワード | 自然言語処理 / 自動文書要約 / 教師なし学習 |
研究開始時の研究の概要 |
これまでの自動要約技術は、学習に大量の見本の要約を用いる必要があることから、実用化に乏しい状況にあります。本研究は、文書に潜在する談話構造(句や文間の修飾関係)を抽出し、それをもとに要約を生成することで、見本の要約を用いない教師なし要約生成を実現することを目指します。本技術により汎用的かつ人手に近い自動要約が可能になり、情報収集の効率化・質向上に貢献すると考えています。
|
研究実績の概要 |
情報爆発が叫ばれる現代において、文章から重要な情報を抽出し纏める自動文書要約技術への期待は日々高まっている。自動文書要約のアプローチは、要約に相 応しい文や節を抽出する抽出型要約と、単語や句の言い換え・一般化を行う生成型要約に分けられる。生成型要約はより人手に近い自動要約を実現でき、その確立は自動要約研究の大きな目標である。一方で、生成型要約は見本となる要約(参照要約)を大量に要し、現実の文書の多くは参照要約の数が少なく、それらの用意に多大な労力を要することから、実用上の大きな障害となっている。 そこで本研究では、前年度に開発した木構造トピックモデルにより文書のトピック木構造を推定し、各トピックの要約文を生成する手法を開発した。当初の計画では談話構造木のトピック分割による要約生成を計画していたが、最新の文生成研究に基づきトピックごとの要約文を生成するアプローチに切り替えた。木構造上のトピックから要約として相応しい詳細度合いのトピックを選択し、各トピックに関する要約文を生成することで、意見文書の要約が教師なしに得られることを示した。 評価実験では、提案法の要約性能は最新の教師なし生成型要約手法と競合することを確認した。また、トピック文の詳細度合いはその潜在分布の分散の大きさに依存し、根の文の潜在分布は分散が大きく一般的な文が生成される一方、葉に近づくにつれ分散が小さくなり具体的な文が生成されるといった特性を確認した。 以上の成果を取り纏めた論文は、計算言語学のトップジャーナルTACLに採択された、言語処理学会第27回年次大会で若手奨励賞を、情報処理学会第246回自然言語処理研究会で優秀研究賞および山下記念研究賞を受賞した。
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|