• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Annual Research Report

大規模データに基づいた機械学習による抽出的および非抽出的文書要約手法の開発

Research Project

Project/Area Number 26280080
Research InstitutionTokyo Institute of Technology

Principal Investigator

高村 大也  東京工業大学, 精密工学研究所, 准教授 (80361773)

Co-Investigator(Kenkyū-buntansha) 笹野 遼平  東京工業大学, 精密工学研究所, 助教 (70603918)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords自然言語処理
Outline of Annual Research Achievements

平成26年度は、主に要約データの構築及び整備に注力した。2つの異なる方向からデータ構築を行った。
一つは、New York Times Annotated Corpusを利用したものである。このコーパスは、要約付きの約65万の記事を含む。しかし、この要約には様々な種類があり、要約器の学習データとしては適切でない。そこで、ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約15万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約1万の元文書-抽出型要約文書ペアを獲得した。
また、これとは独立に、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。これは、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

要約データの構築及び整備は、2つの異なる方向から成功しており、この点では計画を上回る進展がある。一つは、New York Times Annotated Corpusを利用したものである。ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約15万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約1万の元文書-抽出型要約文書ペアを獲得した。
また、もう一つとしては、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。この方法では、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。
このように、プロジェクトの第一段階である要約データの構築という点では、十分な成果が得られた。

Strategy for Future Research Activity

まずは26年度の成果のうち外部発表をしていない部分について、研究をまとめたうえで外部発表を行う。
続いて、これまでに構築した要約データを用いることにより、既存研究で利用できなかった豊富な素性に基づく要約器を構築できるようになるため、まずはこの方向性で研究を進める。また、要約データだけでなく、既存の言語リソースや表現学習により獲得された単語や文の意味表現を利用した要約モデルを構築する。
また、表現の多様性を確保するために、参照表現に関しての研究を進める。特に、元文書と要約文書を横断した共参照解析や、参照表現生成について研究を進める。

Causes of Carryover

これまでの研究成果の発表が次年度になるため、次年度使用額が生じた。

Expenditure Plan for Carryover Budget

研究成果の発表のための旅費などに用いる予定である。また、成果をまとめる際に必要となるデータ整備などにも用いる予定である。

  • Research Products

    (1 results)

All 2015

All Presentation (1 results)

  • [Presentation] 重要箇所同定用コーパスの構築―New York Times Annotated Corpusの文書要約資源化に向けて―2015

    • Author(s)
      菊池悠太, 渡邉亮彦, 高村大也, 奥村学
    • Organizer
      言語処理学会第21回年次大会
    • Place of Presentation
      京都大学(京都府)
    • Year and Date
      2015-03-18

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi