2014 Fiscal Year Annual Research Report
大規模データに基づいた機械学習による抽出的および非抽出的文書要約手法の開発
Project/Area Number |
26280080
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
高村 大也 東京工業大学, 精密工学研究所, 准教授 (80361773)
|
Co-Investigator(Kenkyū-buntansha) |
笹野 遼平 東京工業大学, 精密工学研究所, 助教 (70603918)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 自然言語処理 |
Outline of Annual Research Achievements |
平成26年度は、主に要約データの構築及び整備に注力した。2つの異なる方向からデータ構築を行った。 一つは、New York Times Annotated Corpusを利用したものである。このコーパスは、要約付きの約65万の記事を含む。しかし、この要約には様々な種類があり、要約器の学習データとしては適切でない。そこで、ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約15万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約1万の元文書-抽出型要約文書ペアを獲得した。 また、これとは独立に、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。これは、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
要約データの構築及び整備は、2つの異なる方向から成功しており、この点では計画を上回る進展がある。一つは、New York Times Annotated Corpusを利用したものである。ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約15万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約1万の元文書-抽出型要約文書ペアを獲得した。 また、もう一つとしては、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。この方法では、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。 このように、プロジェクトの第一段階である要約データの構築という点では、十分な成果が得られた。
|
Strategy for Future Research Activity |
まずは26年度の成果のうち外部発表をしていない部分について、研究をまとめたうえで外部発表を行う。 続いて、これまでに構築した要約データを用いることにより、既存研究で利用できなかった豊富な素性に基づく要約器を構築できるようになるため、まずはこの方向性で研究を進める。また、要約データだけでなく、既存の言語リソースや表現学習により獲得された単語や文の意味表現を利用した要約モデルを構築する。 また、表現の多様性を確保するために、参照表現に関しての研究を進める。特に、元文書と要約文書を横断した共参照解析や、参照表現生成について研究を進める。
|
Causes of Carryover |
これまでの研究成果の発表が次年度になるため、次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
研究成果の発表のための旅費などに用いる予定である。また、成果をまとめる際に必要となるデータ整備などにも用いる予定である。
|
Research Products
(1 results)