2017 Fiscal Year Research-status Report
Project/Area Number |
16K00441
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
菊井 玄一郎 岡山県立大学, 情報工学部, 教授 (80395011)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 段落タイトル生成 / 自動要約 / 自然言語処理 |
Outline of Annual Research Achievements |
本年度は計画におけるA)コーパスの構築,B)テキスト構造分析処理,および,C)タイトル生成アルゴリズムのについて検討した. A)「コーパスの構築と分析」についてはwikipediaからの自動作成,および,論説文に対する人手によるタイトル付与の両面から検討を行った.前者は,小見出しで区切られた領域(セクションと呼ぶ)を「段落」,セクション小見出しをタイトルとするコーパスをベースとして,タイトルとして不適切な部分(タグ情報など)を機械処理によって除去することにより作成した.後者は著作権的に利用可能で,かつ,適切な長さの論説文が英語入試問題以外にはあまり存在しないことから難航した.調査の結果Louven大学編纂のLOCNESSエッセイコーパス,および,聖心女子大の奥切准教授らの編纂したエッセイコーパスが有望と考えて入手した. B)「テキスト解析処理の作成」については主にRST(修辞構造理論)に基づく文章構造解析処理を作成した. C)「タイトル生成アルゴリズム」については,アテンション付きのエンコーダ・デコーダモデルをベースとした深層学習によるタイトル生成の実験を行った.段落単位でタイトル付けされた論説文コーパスについては未整備であることから,1)で作成したwikipedia由来のコーパス,および,通信社の記事に対してその見出し(headline)をタイトルとみなしたコーパスを訓練データ,センター試験およびセンター試験模試の第6問Bの正解を段落タイトルとする評価データを用いて実験を行った.その結果,訓練コーパスと同一ドメインのデータについてはRouge-1,Rouge-2でそれぞれ0.48,0.26と比較的良い値となったが,センター試験の長文を評価データとするクロスタスクのテストでは0.21, 0.077と改善の余地があることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
段落タイトルを付与すべき論説文コーパス(長さが1000ワード程度で著作権的に研究利用可能なもの)の入手が想定外に難しかったことから特にコーパス構築について遅れてしまった. (研究代表者が眼科手術を行ったため一時的にエフォートが下がったことも進捗の遅れに多少影響している)
|
Strategy for Future Research Activity |
コーパスの構築とタイトル生成アルゴリズムの研究開発を行う. コーパスの構築では段落タイトル付きのコーパスが存在しなことが分かってきたため,論説文(エッセイ)の各段落に人手でタイトルを付与する方向に絞る.エッセイコーパス自体も利用可能なものはさほど多くないため規模的には当初予定したものより小規模にならざるを得ないと思われる.なお,画像の分野で注目されているGAN(Generative Adversarial Network)などのデータを自動生成する枠組みも検討したい. タイトル生成アルゴリズムについてはデータ量の制約からEND-TO-ENDで力任せにする方法は難しいことが分かってきた.対象段落および周辺文脈の特徴に基づいて分類し,分類に合わせた生成手法を選択する方法が望ましいと考えられるのでそれについても検討を進める. なお,実験の加速のため代表者の研究室の次の大学院生に実験作業を分担させる.井畑優輝(主に生成アルゴリズム),城内聡志(主にテキスト解析基盤),三股亮斗(主に生成アルゴリズム).
|
Causes of Carryover |
1)作業委託について:段落タイトルを付与すべきコーパスが入手できなかったため,タイトル付与作業の外部作業委託ができなかった.(使用計画)コーパスが入手だきたため,今年度に作業を行う. 2)旅費について:タイトル生成実験において十分な精度が出なかったため学会発表ができなかった.使用計画)深層学習によるタイトル生成の結果が得られる見込みであり,発表を行う予定である.
|