研究課題
本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。この目的のために,助詞や助動詞,句読点や空白,改行の使用 法といった,文章の「表面的な特徴」を利用する。本研究では,目的とするシステムを「やさしい日本語」の文章を生成するシステムと,その文章のやさしさを評価するシステムで構成する。最終年度の今年度は,「やさしい日本語」の文章を直接的に生成するための深層学習モデルであるTransformerと,生成された文章を評価するための深層学習モデルとしてBERTを組み合わせて,「やさしい日本語」の文章生成システムを構成した。Transformerの学習に先立って,DTW(Dynamic Time Warping)を用いた「やさしい日本語」コーパスの自動生成手法を提案した。続いて,生成したコーパスを用いてTransformerに対して教師あり学習を行う。さらにその出力を評価用のBERTを用いて評価を行い,その結果を用いてTransformerに対して強化学習を行う。最終的に得られたモデルについては,1) やさしい日本語の生成と 2) 意味の一貫性という2つの観点で評価を行った結果,良好な結果が得られた。本研究では,これまで,「やさしい日本語」における「表面的な特徴」についての検討と,やさしさの評価をについて検討を行ってきた。前者については,どの特徴が,「やさしい日本語」と「難解な日本語」の差別に重要であるかの分析を行なった。日本語テキストの代表的な特徴量15 種類について分析を行った結果,サ変接続名詞」の利用率が最も重要度が高く,一般に,重要な特徴と考えられている「カタカナ語」 の利用率は重要度が低いことを明らかとした。またこれを利用して,深層学習モデルであるBERTを用いて文章のやさしさを評価するシステムを提案した。
すべて 2023 2022
すべて 雑誌論文 (3件) (うち査読あり 3件、 オープンアクセス 2件)
INTED2023 Proceedings (The Proc. of the 17th Int. Technology, Education and Development Conf.)
巻: 1 ページ: 6542-6550
10.21125/inted.2023.1745
The Proceedings of the 16th International Conference on Innovative Computing, Information and Control (ICICIC2022)
巻: - ページ: -
ICIC Express Letters, Part B: Applications
巻: 13(7) ページ: 697-703
10.24507/icicelb.13.07.697