2022 Fiscal Year Annual Research Report
表面的特徴に基づいた「やさしい日本語」の自動生成への深層学習の適用
Project/Area Number |
19K12247
|
Research Institution | Kobe University |
Principal Investigator |
村尾 元 神戸大学, 国際文化学研究科, 教授 (70273761)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | やさしい日本語 / 機械学習 / 機械翻訳 / 学習支援 / 深層学習 / BERT / Transformer / GAN |
Outline of Annual Research Achievements |
本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。この目的のために,助詞や助動詞,句読点や空白,改行の使用 法といった,文章の「表面的な特徴」を利用する。本研究では,目的とするシステムを「やさしい日本語」の文章を生成するシステムと,その文章のやさしさを評価するシステムで構成する。 最終年度の今年度は,「やさしい日本語」の文章を直接的に生成するための深層学習モデルであるTransformerと,生成された文章を評価するための深層学習モデルとしてBERTを組み合わせて,「やさしい日本語」の文章生成システムを構成した。Transformerの学習に先立って,DTW(Dynamic Time Warping)を用いた「やさしい日本語」コーパスの自動生成手法を提案した。続いて,生成したコーパスを用いてTransformerに対して教師あり学習を行う。さらにその出力を評価用のBERTを用いて評価を行い,その結果を用いてTransformerに対して強化学習を行う。最終的に得られたモデルについては,1) やさしい日本語の生成と 2) 意味の一貫性という2つの観点で評価を行った結果,良好な結果が得られた。 本研究では,これまで,「やさしい日本語」における「表面的な特徴」についての検討と,やさしさの評価をについて検討を行ってきた。前者については,どの特徴が,「やさしい日本語」と「難解な日本語」の差別に重要であるかの分析を行なった。日本語テキストの代表的な特徴量15 種類について分析を行った結果,サ変接続名詞」の利用率が最も重要度が高く,一般に,重要な特徴と考えられている「カタカナ語」 の利用率は重要度が低いことを明らかとした。またこれを利用して,深層学習モデルであるBERTを用いて文章のやさしさを評価するシステムを提案した。
|
Research Products
(3 results)