2021 Fiscal Year Research-status Report
表面的特徴に基づいた「やさしい日本語」の自動生成への深層学習の適用
Project/Area Number |
19K12247
|
Research Institution | Kobe University |
Principal Investigator |
村尾 元 神戸大学, 国際文化学研究科, 教授 (70273761)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | やさしい日本語 / 機械学習 / 機械翻訳 / 学習支援 / 深層学習 / BERT / Transformer / GAN |
Outline of Annual Research Achievements |
本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。この目的のために,助詞や助動詞,句読点や空白,改行の使用法といった,文章の「表面的な特徴」を利用する。本研究では,目的とするシステムを「やさしい日本語」の文章を生成するシステムと,その文章のやさしさを評価するシステムで構成する。文章のやさしさ評価については昨年度も検討を行ったが,十分な精度が得られなかったため,本年度も,まず,文章のやさしさを評価するシステムについて検討を行った。その際,文章を分かち書きして入力すると,その文章が「やさしい日本語」であるか「難解な日本語」であるかを出力するという2クラス問題として定式化し,自然言語処理によく利用されている深層学習モデルであるBERTを利用した。ネットで収集した10,000文(うち「やさしい日本語」5,000文,「難解な日本語」5,000文)を用いて学習した結果,96.4%という高い精度で,「やさしい日本語」と「難解な日本語」を判別することができた。その際,BERTの内部動作を分析したところ,昨年度までの研究で明らかとなった,「やさしい日本語」の「表面的な特徴」がその判別に重要な役割を果たしていることが分かった。この結果については論文を作成し,国際学会で報告済みであり,また,英文論文へも投稿し,掲載が決定している。引き続いて,「やさしい日本語」の文章生成システムについて,深層学習モデルのTransformerにGANを組み合わせたシステムのプロトタイプを作成,検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。目的とするシステムは,「やさしい日本語」の文章を生成するシステムと,その文章のやさしさを評価するシステムで構成する。計画では,昨年度中に,難解な日本語をやさしい日本語に変換するためのシステムの構成を終了し,テストや分析を行うこととなっていたが,昨年度,文章の「表面的な特徴」に基づいて,文章のやさしさを評価するシステムを構成したところ,80%程度の精度にとどまり,目的を達成できないことが判明した。そのため,今年度は文章のやさしさ評価システムの検討から始めたため,全体のシステムの構成,テストや分析に至らなかった。結果として,昨年度検討した「表面的な特徴」が,やさしさ評価に重要や役割を果たしていることを明らかにすることができ,また,96.4%という高い精度で評価可能なシステムを構築することが出来た。これらについて学会等で報告したところ,良好な反応を得られたが,想定していた以上に時間を要してしまった。 もう一点は,コロナ禍の影響により,コンピュータの利用と,プログラミングをするための人手,またデータの収集などに支障をきたしてしまったことである。
|
Strategy for Future Research Activity |
幸い,コロナ禍の影響下での研究遂行のノウハウを習得することができたため,現在は,やや遅れながら,計画に沿って研究を進めることができている。次年度は,「表面的な特徴」に基づいて,難解な日本語をやさしい日本語に変換するための深層学習システムのプロトタイムの作成を行い,テスト・分析を行う。元々の研究計画では,この深層学習としてVRAE(Variational Recurrent Auto-Encoder)の利用を検討していたが,最近の関連研究の成果により,再帰型ニューラルネットワークよりもTransformerという順方向ニューラルネットワークの方が性能が良いという報告があるため,TransformerにGANという深層学習を組み合わせて構成することを検討している。Transformerの構造やパラメータの決定は,学習の進行にとても重要であるため,次年度は,様々な構造のTransformerの利用・比較を行うことで,やさしい日本語の生成に適した構造とパラメータの決定を行う。すでにプロトタイプの作成を行い,昨年度と今年度にわたって得られた日本語文のデータを用いてテストを開始しており,銃調に進められると考えている。
|
Causes of Carryover |
本年度に予定していた打ち合わせおよび国際会議について,新型コロナウイルスの影響により中止および延期が余儀なくされ,予定していた予算の使用が不可能であったため。これについては次年度(2022年度)に実施を計画している。
|
Research Products
(1 results)