2018 Fiscal Year Research-status Report
Project/Area Number |
16K00441
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
菊井 玄一郎 岡山県立大学, 情報工学部, 教授 (80395011)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 自動タイトル付与 / 文書要約 |
Outline of Annual Research Achievements |
今年度は,当初計画でH28年度~H29年度前半に予定していたコーパス作成を行った.また,深層学習によるタイトル生成に資するために低頻度語の埋め込み生成の改善を行った. コーパスは単語数500-700程度,段落数は7程度の英語の論説文(エッセイ)の各段落に対して,タイトルを付与したものである.以下,その概略を述べる. まず,タイトル付与対象のテキストの選定にあたっては,公開して学術研究に供することが極力可能となるように留意した結果,次の3つに決定した.1)Louven大学編纂の「LOCNESSエッセイコーパス」,2)聖心女子大の奥切准教授らの編纂した「The Corpus of Multilingual Opinion Essays by College Students(科研費19720119)」の英語ネイティブ作成部分.3)Daily YomiuriのEditorialである.最初の2つはネイティブ大学生が書いたもの,最後の2つは専門家の書いたもの(新聞社説)である.作業対象のテキスト数はそれぞれ66,36, 21(合計123)とした.これらの各テキストに対して,一定の教育レベルにある5名の英語ネイティブ作業者に各段落へのタイトル付与を依頼した.テキスト全体のタイトルと異なり,段落ごとのタイトルは通常存在しないため,どのような方針でタイトルを付与するかについておおよその指針を作成し,これに基づいて作成するよう依頼した.一つのテキストが平均5~6段落から構成されているので,最終的に3000個(120x5x5)を超えるタイトルが作成された.このコーパスは報告者の知る限り過去に存在していないユニークなものである. 低頻度語の埋め込み生成については,semantic autoencoderと呼ばれる手法を用いて,周辺単語の埋め込みから未知語の埋め込みを推定する手法を提案し,全国大会で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
H28年度のパラグラフタイトル付与作業の遅れによる全体計画の遅れから回復することができなかった.上述の通り,本年度,この作業は完了した.
|
Strategy for Future Research Activity |
当年度でコーパスが完成したので,これを利用して深層学習等によるタイトル自動生成実験を行うとともに,抽象化パターンの獲得.作成も目指す.研究の加速のため,本学大学院生の城内聡志(解析処理),学部学生(実験作業)に一部作業を分担させる.
|
Causes of Carryover |
予定していた学会発表,学会参加(調査)ができなかったため. 学会発表,学会参加(調査)を行う.
|