Project/Area Number |
20J10726
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
磯沼 大 東京大学, 工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2021: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2020: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 自然言語処理 / 自動文書要約 / 教師なし学習 |
Outline of Research at the Start |
これまでの自動要約技術は、学習に大量の見本の要約を用いる必要があることから、実用化に乏しい状況にあります。本研究は、文書に潜在する談話構造(句や文間の修飾関係)を抽出し、それをもとに要約を生成することで、見本の要約を用いない教師なし要約生成を実現することを目指します。本技術により汎用的かつ人手に近い自動要約が可能になり、情報収集の効率化・質向上に貢献すると考えています。
|
Outline of Annual Research Achievements |
情報爆発が叫ばれる現代において、文章から重要な情報を抽出し纏める自動文書要約技術への期待は日々高まっている。自動文書要約のアプローチは、要約に相 応しい文や節を抽出する抽出型要約と、単語や句の言い換え・一般化を行う生成型要約に分けられる。生成型要約はより人手に近い自動要約を実現でき、その確立は自動要約研究の大きな目標である。一方で、生成型要約は見本となる要約(参照要約)を大量に要し、現実の文書の多くは参照要約の数が少なく、それらの用意に多大な労力を要することから、実用上の大きな障害となっている。 そこで本研究では、前年度に開発した木構造トピックモデルにより文書のトピック木構造を推定し、各トピックの要約文を生成する手法を開発した。当初の計画では談話構造木のトピック分割による要約生成を計画していたが、最新の文生成研究に基づきトピックごとの要約文を生成するアプローチに切り替えた。木構造上のトピックから要約として相応しい詳細度合いのトピックを選択し、各トピックに関する要約文を生成することで、意見文書の要約が教師なしに得られることを示した。 評価実験では、提案法の要約性能は最新の教師なし生成型要約手法と競合することを確認した。また、トピック文の詳細度合いはその潜在分布の分散の大きさに依存し、根の文の潜在分布は分散が大きく一般的な文が生成される一方、葉に近づくにつれ分散が小さくなり具体的な文が生成されるといった特性を確認した。 以上の成果を取り纏めた論文は、計算言語学のトップジャーナルTACLに採択された、言語処理学会第27回年次大会で若手奨励賞を、情報処理学会第246回自然言語処理研究会で優秀研究賞および山下記念研究賞を受賞した。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(7 results)