研究課題/領域番号 |
16K12546
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
研究分担者 |
徳永 健伸 東京工業大学, 情報理工学院, 教授 (20197875)
|
研究期間 (年度) |
2016-04-01 – 2018-03-31
|
キーワード | 情報組織化 / レビューマトリックス / 文書要約 / 質問応答システム / 文検索 |
研究実績の概要 |
文献の俯瞰は時間を要する困難な作業である。対象となる文献が大量にある上に、多くの場合、必要な情報は抄録には書かれておらず、論文全体を通読して捜す必要がある。ここで近年、レビュー・マトリクスと呼ばれる一覧表形式を用いて、文献ごとにポイントをまとめる情報整理法が注目されている。これは読み手自身が、目的に応じたテンプレートを使って、文書ごとの要約を作成することに相当する。本研究は、大量文書の俯瞰的な理解を支援するためレビューマトリックス作成支援に焦点をあてて、論文の対話的な自動要約処理の手法を検討する。
初年度となる本年度は、レビューマトリックスの生成を「クエリ付き複数文書要約」として定式化し、クエリ付き要約や対比的要約に関する既存手法を調査した。また、提案手法を評価する枠組みとして、自然言語処理分野における共通タスク(shared task)に注目し、タスク参加者による投稿論文を要約対象文書、タスクオーガナイザーの概要論文に掲載された参加システム一覧表をレビューマトリックスの正解データとするデータセットを構築した。さらに、レビューマトリックスで比較に用いられる項目を、対応する説明記述の種類に応じて分析・類型化した。本研究では、特に自由記述による説明に焦点をあてることにして、実現手法を検討した。具体的には、項目をクエリとみたてて対象文書中に含まれる文を重要度順にランキングした上で、さらに整数計画法を用いて、文書どうしを対比するのに有効な文集合を抽出する手法を開発して、予備的な評価を行った。
複数文書を対比してユーザに提示するためには、選択した文の一部だけを表示する文圧縮の適用が必要になる。また、対話的にレビューマトリックスを作成するためには、ユーザが指定する項目への回答を抽出する質疑応答の技術も必要になる。このため本年度では、文圧縮および質疑応答についても検討に着手した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度である平成28年度において、研究を進める上で必須となるデータセットの構築に取り組み、予備的な評価までを終了した。また、その過程で明らかになった要素技術の検討にも着手したことから、おおむね順調に進んでいると判断できる。
|
今後の研究の推進方策 |
平成28年度で得られた知見に基づき手法の開発を進め、これまで実装した手法をベースラインとして性能を比較する。有効性を示した上で対外発表を行う予定である。
|
次年度使用額が生じた理由 |
平成28年度の研究成果について、平成29年度中開催の国際会議で発表を予定している。
|
次年度使用額の使用計画 |
当該予算は、平成29年度中開催の国際会議への参加登録費用、英文校正、出張旅費等に使用する予定である。
|