2016 Fiscal Year Research-status Report
Project/Area Number |
16K00441
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
菊井 玄一郎 岡山県立大学, 情報工学部, 教授 (80395011)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 段落タイトル生成 / 表題生成 / 自動要約 |
Outline of Annual Research Achievements |
当年度は初年度にあたるためコーパスの構築を研究項目としてあげていた.しかしながら,大規模かつ高品質と思われる要約コーパス(「CNNコーパス」)が公開されたことから,これを利用して本来平成29年度に予定していた「生成処理の検討」に着手した. 具体的には,深層学習を用いて与えられた段落に対して選択肢の中から正しいタイトル(要約)を選ぶ手法を作成し,上記CNNコーパスで訓練,評価を行った.ここで,CNNコーパスはCNNニュースの各記事に対して人手で商用レベルの要約文が付与されたものであるり,要約の品質が高いことと,大量にあること(40万件レベル)から,本研究で目標とする「タイトル」とは若干形式が異なるものの利用価値は大きいと考えた. 要約手法として次の二つの手法を考えた.第一の手法はword2vecなどを用いて段落と選択肢をベクトル化し,これらの間の距離が最も近い選択肢を選ぶ既存の方法であり,第二の手法は深層学習のattentive readerを改造し段落と選択肢に対して後者が前者の要約かどうかを判別する回路網を用いる手法である.後者は深層学習フレームワークchainerを用いて実装し,CNNデータを用いて作成した問題38万個を学習データとして与えてパラメータを推定した.評価データとして学習データとは別の3,924個に適用したところ,前者,後者それぞれ単独では正解率76.6%と62.3%となり,第一の手法の方が性能が有意に高かった.しかしながら,第二の手法で一意に判別できた問題についてはその結果を用い,判別できなかったものは第一の結果を用いた場合は正解率85.3%となり,二つの手法が相補的に働き合成すると従来より優位に性能が高いことが分かった(H29年度学会発表を予定).
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
外部で公開されたコーパスを用いた実験・評価を優先したため,コーパス作成(計画項目A)に遅れが出ている.なお,計画項目Cについては前倒しで進捗したため,全体としての遅れはさほど大きくないと考えている.
|
Strategy for Future Research Activity |
昨年度利用した外部のコーパスがある程度有用なことは分かったが,本課題を推進するためには計画で示した「抽象化を伴うタイトル」が付与されたコーパスの構築は必要である.計画であげた「論文コーパス等の利用」も視野に入れ検討する. なお検討を加速するため大学院博士前期課程2年の井内健人に実験,および,コーパス整備作業の一部を担当させる.
|
Causes of Carryover |
コーパス作成を次年度に延期したため.
|
Expenditure Plan for Carryover Budget |
実施が遅れるものの,当初計画通りコーパスを整備する.
|