2014 年度実績報告書

大規模データに基づいた機械学習による抽出的および非抽出的文書要約手法の開発

研究課題

研究課題/領域番号	26280080
研究機関	東京工業大学
研究代表者	高村大也東京工業大学, 精密工学研究所, 准教授 (80361773)
研究分担者	笹野遼平東京工業大学, 精密工学研究所, 助教 (70603918)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	自然言語処理
研究実績の概要	平成26年度は、主に要約データの構築及び整備に注力した。２つの異なる方向からデータ構築を行った。一つは、New York Times Annotated Corpusを利用したものである。このコーパスは、要約付きの約６５万の記事を含む。しかし、この要約には様々な種類があり、要約器の学習データとしては適切でない。そこで、ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約１５万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約１万の元文書-抽出型要約文書ペアを獲得した。また、これとは独立に、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。これは、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由要約データの構築及び整備は、２つの異なる方向から成功しており、この点では計画を上回る進展がある。一つは、New York Times Annotated Corpusを利用したものである。ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約１５万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約１万の元文書-抽出型要約文書ペアを獲得した。また、もう一つとしては、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。この方法では、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。このように、プロジェクトの第一段階である要約データの構築という点では、十分な成果が得られた。
今後の研究の推進方策	まずは２６年度の成果のうち外部発表をしていない部分について、研究をまとめたうえで外部発表を行う。続いて、これまでに構築した要約データを用いることにより、既存研究で利用できなかった豊富な素性に基づく要約器を構築できるようになるため、まずはこの方向性で研究を進める。また、要約データだけでなく、既存の言語リソースや表現学習により獲得された単語や文の意味表現を利用した要約モデルを構築する。また、表現の多様性を確保するために、参照表現に関しての研究を進める。特に、元文書と要約文書を横断した共参照解析や、参照表現生成について研究を進める。
次年度使用額が生じた理由	これまでの研究成果の発表が次年度になるため、次年度使用額が生じた。
次年度使用額の使用計画	研究成果の発表のための旅費などに用いる予定である。また、成果をまとめる際に必要となるデータ整備などにも用いる予定である。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 重要箇所同定用コーパスの構築―New York Times Annotated Corpusの文書要約資源化に向けて―2015
- 著者名/発表者名
  菊池悠太, 渡邉亮彦, 高村大也, 奥村学
- 学会等名
  言語処理学会第２１回年次大会
- 発表場所
  京都大学（京都府）
- 年月日
  2015-03-18