大量の要約データ(元文書-要約文書ペア)を利用する技術を開発した。特に要約モデルの学習に適切な学習事例を選択する方法、またドメインアダプテーションの手法により大量のデータで学習した要約モデルを、ターゲットとなるドメインにチューニングする方法を開発した。この手法を用いて、実際に文書要約モデルを学習し、高い精度で要約を生成することに成功した。また、ニューラルネットワークに基づく文要約手法において、出力長を制御する手法を開発した。これにより、入力文の内容を保ちつつ、自然な文を出力できるようになった。この技術のプログラムは、インターネット上で一般公開している。さらに、日本語の文圧縮のための大量のデータを自動的に抽出する手法を開発し、実際にこの手法を用いて大規模データを構築し、文圧縮モデルの学習を行った。また、ウェブページの推薦システムにおいて、ユーザにカスタマイズしたスニペットを生成する手法を開発し、実際にこの手法が生成したスニペットが、ウェブページの要約として有用であることを示した。
|