2017 Fiscal Year Research-status Report
文書の俯瞰的理解を支援する対話的な要約作成システム
Project/Area Number |
16K12546
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 情報理工学院, 教授 (20197875)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 情報組織化 / レビューマトリックス / 文書要約 / 質問応答システム / 文検索 |
Outline of Annual Research Achievements |
文献の俯瞰は時間を要する困難な作業である。対象となる文献が大量にある上に、多くの場合、必要な情報は抄録には書かれておらず、論文全体を通読して捜す必要がある。ここで近年、レビュー・マトリクスと呼ばれる一覧表形式を用いて、文献ごとにポイントをまとめる情報整理法が注目されている。これは読み手自身が、目的に応じたテンプレートを使って、文書ごとの要約を作成することに相当する。本研究は、大量文書の俯瞰的な理解を支援するためレビューマトリックス作成支援に焦点をあてて、論文の対話的な自動要約処理の手法を検討する。
H29年度は、レビューマトリックスの生成を「クエリ付き複数文書要約」として定式化した上で、要約間の対応関係を制約として考慮する要約手法を検討した。また、自然言語処理分野における共通タスク(shared task)に注目し、タスク参加者による投稿論文を要約対象文書、タスクオーガナイザーの概要論文に掲載された参加システム一覧表をレビューマトリックスの正解データとするデータセットを構築した。H29年度では、構築したデータセットに提案手法を適用して分析・評価を行い、その結果を国際ワークショップ(BIRNDL-2017, SCIDOCA-2017)で発表した。また、得られた知見に基づき、クエリ拡張と重要文ランキングの改善に取り組んだ。特に重要文ランキングでで必要となる文書類似度の計算方法について分散表現に基づく手法を調査し、文の分散表現を求めるための効率的かつ有効な計算方法を検討した。また、タスク後に発表された未知の論文に対しても評価が行えるようデータセットを拡張した。レビューマトリックスで比較に用いられる項目を、対応する説明記述の種類に応じて分析・類型化し、提案手法の有効性を評価した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度であるH28年度において、研究を進める上で必須となるデータセットの構築に取り組み、予備的な評価までを終了した。H29年度では、その分析結果に基づき、データセットの拡張および手法の改善に取り組み、提案手法の有用性を確認したことから、おおむね順調に進んでいると判断できる。
|
Strategy for Future Research Activity |
H29年度で得られた成果について対外発表を行う。また、そのために必要となる公開用のプログラムやツールの整備を行う。
|
Causes of Carryover |
未使用金額が発生した状況:H29年度の分析に基づき、新たな枠組みで評価を行う必要が生じた。現在、その結果を国際ワークショップに投稿中であり、発表後にデータやツールを公開するための作業も必要である。 H30年度における未使用額の使途内容:H29年度の研究成果については、H30年度開催の国際会議で発表を予定しており、当該予算は、データ等整備にかかる謝金作業、参加登録費用、英文校正、出張旅費等に使用する予定である。
|