2018 Fiscal Year Research-status Report
Constructing simplified Japanese corpus and prototyping automatic text simplification
Project/Area Number |
17K18481
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
山本 和英 長岡技術科学大学, 工学研究科, 准教授 (40359708)
|
Project Period (FY) |
2017-06-30 – 2020-03-31
|
Keywords | 自然言語処理 / やさしい日本語 / 自動平易化 |
Outline of Annual Research Achievements |
(1)やさしい日本語対訳コーパスの発表:5万文に対して上記2,000語の語彙のみで書き換える作業(昨年度に実施)について、この内容をまとめて国際会議において発表した。 (2)やさしい日本語対訳コーパスの拡張:クラウドソーシングで3万5千文を2,000語の語彙で書き換える作業について、この内容をまとめて国際会議において発表した。 (3)語彙平易化の手法について検討を行い、エンコーダー・デコーダーモデルによる平易化は全体としての性能は良好なものの、低頻度語に対する平易化の性能は不十分であり、広く様々な語彙的平易化を行うためには平易化辞書による手法が最も良好であるという知見が得られた。この結果を論文にまとめ国際会議において発表した。 (4)今年度から文法の平易化にも取り組んだ。具体的には、50,000文に対してクラウドソーシングで10人の作業者に予め定義した最低限の文法のみで記述するように書き換えを依頼した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は昨年度に作成した言語を利用して研究に注力した。昨年度末までに様々な言語資源が準備できたことから今年度の研究は順調に進んでいると認識している。この調子で来年度も研究を進展させて、最終的な成果につなげたい。 また、今年度からは語彙だけでなく文法の平易化研究も開始した。今年度はこのデータとして文法平易化コーパスを作成したので、来年度末までにこのコーパスを用いた研究成果を目指す。
|
Strategy for Future Research Activity |
研究課題最終年度の令和元年度(平成31年度)は、これまでに作成した言語資源を最大限に活用してやさしい日本語への自動平易化の研究を進めていきたい。これと並行して、研究予算をできるだけ有効活用して、さらなる(自動平易化のための)言語資源整備を行っていきたい。自動平易化研究は英語において先行しているが、本研究課題が採択されたことに伴って日本語の言語データも英語と遜色ない、あるいはそれ以上の質と量のデータを整備することができたと考えている。特に人手で作成した日本語と平易文の対訳コーパス8万5千文というのは私の知る限り英語にも存在せず、世界最大規模である。よってこの規模の言語データを活用することで世界最先端の自動平易化研究の知見を蓄積していくだけでなく、さらにデータを大規模化して世界でも比類がない研究を行っていきたい。
|
Causes of Carryover |
当初予定よりも執行額が少なかったのは予定よりも言語資源作成作業が進まなかったためである。次年度は最終年度であるので、できるだけ予算を有効に利用していきたい。具体的には、昨年度に達成できなかった言語資源作成について、引き続き実現を目指すと同時に、昨年度から研究成果が出始めているのでこの発表経費(及びその関連経費)に利用する。この予算を十分に活用することでできるだけ多くの業績を作り、また言語資源を残していきたいと考えている。
|