研究課題/領域番号 |
26280080
|
研究機関 | 東京工業大学 |
研究代表者 |
高村 大也 東京工業大学, 精密工学研究所, 准教授 (80361773)
|
研究分担者 |
笹野 遼平 東京工業大学, 精密工学研究所, 助教 (70603918)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 自然言語処理 |
研究実績の概要 |
平成26年度は、主に要約データの構築及び整備に注力した。2つの異なる方向からデータ構築を行った。 一つは、New York Times Annotated Corpusを利用したものである。このコーパスは、要約付きの約65万の記事を含む。しかし、この要約には様々な種類があり、要約器の学習データとしては適切でない。そこで、ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約15万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約1万の元文書-抽出型要約文書ペアを獲得した。 また、これとは独立に、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。これは、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
要約データの構築及び整備は、2つの異なる方向から成功しており、この点では計画を上回る進展がある。一つは、New York Times Annotated Corpusを利用したものである。ここから学習データとして使用可能なデータを抽出することで要約データを構築した。これにより、約15万の元文書-要約文書ペアを獲得できた。またこれらからさらに抽出型の要約アプローチで作成可能な要約文書を取り出すことで、約1万の元文書-抽出型要約文書ペアを獲得した。 また、もう一つとしては、一般の新聞記事から擬似的な元文書-要約文書ペアを獲得する手法も構築した。この方法では、新聞記事の冒頭に記事内容をまとめた箇所がしばしば存在することに着目し、そのような記事を自動的に収集し、冒頭を要約文書とみなし、残りを元文書とみなした。これにより大規模な擬似的な元文書-要約文書ペアを獲得した。 このように、プロジェクトの第一段階である要約データの構築という点では、十分な成果が得られた。
|
今後の研究の推進方策 |
まずは26年度の成果のうち外部発表をしていない部分について、研究をまとめたうえで外部発表を行う。 続いて、これまでに構築した要約データを用いることにより、既存研究で利用できなかった豊富な素性に基づく要約器を構築できるようになるため、まずはこの方向性で研究を進める。また、要約データだけでなく、既存の言語リソースや表現学習により獲得された単語や文の意味表現を利用した要約モデルを構築する。 また、表現の多様性を確保するために、参照表現に関しての研究を進める。特に、元文書と要約文書を横断した共参照解析や、参照表現生成について研究を進める。
|
次年度使用額が生じた理由 |
これまでの研究成果の発表が次年度になるため、次年度使用額が生じた。
|
次年度使用額の使用計画 |
研究成果の発表のための旅費などに用いる予定である。また、成果をまとめる際に必要となるデータ整備などにも用いる予定である。
|