2015 Fiscal Year Annual Research Report
大規模データに基づいた機械学習による抽出的および非抽出的文書要約手法の開発
Project/Area Number |
26280080
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
高村 大也 東京工業大学, 精密工学研究所, 准教授 (80361773)
|
Co-Investigator(Kenkyū-buntansha) |
笹野 遼平 東京工業大学, 精密工学研究所, 助教 (70603918)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 自然言語処理 |
Outline of Annual Research Achievements |
平成27年度は、単一文書要約のために必要となる、文に対する様々な編集操作を開発した。特に、文を分割する方法、複数の文を融合する方法を開発し、それらを文書要約手法に組み込んだ。より具体的には、分割すべき文を選択したうえで分割し、さらに融合すべき文を選択したうえで融合し、続けてそれらの出力と元々の文から不要な単語を削除することで文を圧縮した。こうすることで多くの候補文を生成し、これらの候補文の中から適切なものを選んで整列させることで要約を生成する手法になっている。最終段階の生成では、最大被覆要約モデルを用いる。これにより、要約における各文の長さを適切に制御することができるようになった。また、野球の打者成績を簡潔に文書で伝えるために、打者成績からイニング速報を自動生成する手法を開発した。打者成績は、すべてのイベントがイニング速報として記述されるわけでなく、重要なイベントが選ばれて記述される。また、複数のイベントがまとめられて一つの文で記述されることもある。このような性質を持つ要約生成問題であり、これを条件付き確率場を用いてモデル化した。これは、日本語の形態素解析で使われている技術を要約生成に応用したものである。また、製品レビューを対象とした単一文書要約において、どのような箇所が重要であるかを自動的に推定する方法を開発した。推定には、文を重要度にしたがってランキングするランク学習を用いている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
文分割手法、文融合手法など、単一文書要約のために必要となる文に対する様々な編集操作を組み込んだ要約手法の開発に成功し、実際に動作する技術ができた。また、製品レビュー分類や、打者成績の要約など、様々な方向から、文書要約を応用できており、おおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
今後は、非抽出型の要約手法に、さらに力を入れたい。特に、文書の意味表現などを用いてより柔軟な要約生成を可能にするべく、技術開発を行っていく予定である。現時点での開発済の技術は、デモシステムという形で動作可能であるが、開発技術をさらに公開すべく、技術の実装も進めていく予定である。
|
Causes of Carryover |
これまでの研究成果の発表が次年度になるため、次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
研究成果の発表のための旅費などに用いる予定である。また、成果をまとめる際に必要となる追加実験やデータ整備などにも用いる予定である。
|
Research Products
(5 results)