2019 Fiscal Year Annual Research Report
Constructing simplified Japanese corpus and prototyping automatic text simplification
Project/Area Number |
17K18481
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
山本 和英 長岡技術科学大学, 工学研究科, 准教授 (40359708)
|
Project Period (FY) |
2017-06-30 – 2020-03-31
|
Keywords | テキスト平易化 / やさしい日本語 / ニューラル機械翻訳 / WordNet / USMT |
Outline of Annual Research Achievements |
日本語の自動平易化に関して、最終年度の今年度は下記2点について研究を行った。 (1)近年ではニューラル機械翻訳モデルの枠組みでテキスト平易化を行う研究が行われている。しかし、テキスト平易化のための対訳コーパスは非常に少なく、また、日本語においてそのような言語資源はほとんど存在しない。そこで容易に大規模なコーパスを用いて学習を行うことのできる教師なし学習による手法を検討した。単言語のコーパスからテキスト平易化のためにそれぞれ独立の難解文コーパスと平易文コーパスを構築し、教師なし機械翻訳の枠組みでテキスト平易化を行う。しかし、教師なし学習では一般的に単語埋め込みによって単語の対応付けを学習するが、必ずしも単語埋め込みから同義語を抽出できるわけではなく、ノイズを多く含んでいる。そのため、WordNet を用いたクリーニングを行い、その効果を調査した。結果としてWordNetを用いたクリーニングを行うことで USMT の精度を向上させることができたが、貢献はそれほど大きくはないことが分かった。 (2)テキスト平易化の出力制御を試みた。同一の入力文であったとしても、読者のニーズに合わせて出力を制御する必要がある。本研究では、重要性の高い公的文書を対象に、出力文長、編集の度合い・平易化レベルを制御可能なモデルを利用し、その効果を検証した。公的文書書き換えコーパスの性質を利用したドメインラベルと、平易化における編集操作に着目した編集操作ラベルの 2 種類を利用しテキスト平易化における出力制御を行った。 ドメインラベルでは性能の改善には至らなかったが、編集操作ラベルでは平易化性能を改善しつつ、圧縮率や編集距離に対して適切に出力を制御できることを示した。 今回、文レベルの特徴量をラベルとして導入したが、今後はより細かい粒度での特徴量の導入を検討したい。
|