研究実績の概要 |
今年度は,当初計画でH28年度~H29年度前半に予定していたコーパス作成を行った.また,深層学習によるタイトル生成に資するために低頻度語の埋め込み生成の改善を行った. コーパスは単語数500-700程度,段落数は7程度の英語の論説文(エッセイ)の各段落に対して,タイトルを付与したものである.以下,その概略を述べる. まず,タイトル付与対象のテキストの選定にあたっては,公開して学術研究に供することが極力可能となるように留意した結果,次の3つに決定した.1)Louven大学編纂の「LOCNESSエッセイコーパス」,2)聖心女子大の奥切准教授らの編纂した「The Corpus of Multilingual Opinion Essays by College Students(科研費19720119)」の英語ネイティブ作成部分.3)Daily YomiuriのEditorialである.最初の2つはネイティブ大学生が書いたもの,最後の2つは専門家の書いたもの(新聞社説)である.作業対象のテキスト数はそれぞれ66,36, 21(合計123)とした.これらの各テキストに対して,一定の教育レベルにある5名の英語ネイティブ作業者に各段落へのタイトル付与を依頼した.テキスト全体のタイトルと異なり,段落ごとのタイトルは通常存在しないため,どのような方針でタイトルを付与するかについておおよその指針を作成し,これに基づいて作成するよう依頼した.一つのテキストが平均5~6段落から構成されているので,最終的に3000個(120x5x5)を超えるタイトルが作成された.このコーパスは報告者の知る限り過去に存在していないユニークなものである. 低頻度語の埋め込み生成については,semantic autoencoderと呼ばれる手法を用いて,周辺単語の埋め込みから未知語の埋め込みを推定する手法を提案し,全国大会で発表した.
|