2017 Fiscal Year Annual Research Report
Study on a structural paraphrase model for improving the readability of texts
Project/Area Number |
15K12094
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
島津 明 北陸先端科学技術大学院大学, その他, 名誉教授 (60293388)
|
Co-Investigator(Kenkyū-buntansha) |
NGUYEN MinhLe 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (30509401)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 書換え / テキスト構造 / 可読性 / 自然言語処理 / 法令工学 |
Outline of Annual Research Achievements |
本研究は、1次元制約のあるテキストによる情報伝達の高度化に向けて、可読性を高める構造的書換え法を明らかにすることを目的とする。構造と言うのは、テキストにおける文の並び方、談話標識、論理的関係、並列性などに関する構造である。従来の可読性に関する研究に対してテキストの構造面から捉える点に特徴がある。 国民年金法の条項を主な対象に分析して、構造的書換えの枠組みを定め、条項の構造的書換えのコーパスを作成した。条項を構造的に書換える変換法を明確化するとともに、構造的書換えコーパスを用いて、可読性を評価する被験者実験を行い、有効性や問題点を明らかにした。 構造的書換えの変換法については、前期に決めた構想的書換えの枠組みに基づき、4段階からなる方法を提案した。条項の構造的書換えの枠組みは、条項の要件効果構造の明確化、節への分割、標準的な言い回しへの置き換え、構成素から構造的書換えへの変換からなる。第1段と第2段については、深層学習に基づく方法を提案し、構造的書換えコーパスを利用して実験を行い、第1段は約80%、第2段は約85%程度の精度を得た。第3段、第4段については、類似の言語表現を標準化する規則をまとめるとともにアルゴリズム化を検討した。 被験者実験については、被験者が元文または構造的書換えの条項を読んで条項に関する質問に回答のテキストを入力し、回答時間を計測する実験を行った。質問は7つ、被験者は元文、構造的書換え、各12名である。構造的書換えは上記コーパスの一部である。統計的検定により、解答時間に有意差がない場合が4、構造的書換えが速い場合が2であった。不正解は、元文が15、書換えが13あった。構造的書換えが多少よい。差異が不明確な場合が多いのは質問内容と回答方法に問題があるためと考えられる。
|