研究課題/領域番号 |
19K12247
|
研究機関 | 神戸大学 |
研究代表者 |
村尾 元 神戸大学, 国際文化学研究科, 教授 (70273761)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | やさしい日本語 / 機械学習 / 機械翻訳 / 学習支援 |
研究実績の概要 |
本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。この目的のために,助詞や助動詞,句読点や空白,改行の使用法といった,文章の「表面的な特徴」を利用する。 本年度は,昨年度に引き続き「やさしい日本語」における「表面的な特徴」についての検討を行った。特に,どの特徴が,「やさしい日本語」と「難解な日本語」の差別に重要であるかの分析を行なった。そのために特徴量のPermutation Importanceを計測した。その手順は次の通りである。まず,「やさしい日本語」で書かれた文章と,「難解な日本語」の文章をインターネット上で収集し,それらの文章から,「表面的な特徴」の候補となる特徴量を可能な限り抽出する。これらには,例えば句読点の数やカタカナ語の頻度といった比較的単純なものから,係受けの回数や距離といった比較的複雑なものまで含まれる。本研究では,15種類の特徴量候補を抽出した。次に,機械学習の一つであるランダムフォレストを用いて,特徴量候補から,抽出元の文章を「やさしい日本語」と「難解な日本語」に分類する分類器を構成する。検証の結果,構成した分類器は80%を超える精度で分類可能であった。その後,それぞれの特徴量候補の値をランダムな値に置き換えて分類を試み,分類精度の低下率を計測する。「やさしい日本語」と「難解な日本語」の分類に重要な特徴量であれば,その値をランダムなものに置き換えた場合,分類精度の低下率は大きくなる。 様々な文書を利用して上記の手順により検討したところ,「サ変接続名詞」の利用率が最も重要度が高く,一般に,重要な特徴と考えられている「カタカナ語」の利用率は重要度が低いことが明らかとなった。これらの結果については論文を作成し,国際学会及び国内会議において報告済みである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。この目的のために,助詞や助動詞,句読点や空白,改行の使用法といった,文章の「表面的な特徴」を利用する。計画では,今年度は難解な日本語をやさしい日本語に変換するための深層学習システムについて検討を行うこととなっていたが,それに先立って,文章の「表面的な特徴」のうち,どの特徴量が「やさしい日本語」の平易度に影響するかの検討を行なうに止まった。理由としては以下の2点が挙げられる。 まず,文章の「表面的な特徴」として考えられる複数の特徴のうち,どの特徴量が日本語文章の平易化に重要であるかの検討は,この後の計画に非常に重要であるため,データの収集,特徴量の抽出,検討を慎重に行なったことである。結果として,今後の計画を遂行する上で有用なデータが得られ,また,これらについて学会等で報告したところ,良好な反応を得られたが,想定していた以上に時間を要してしまった。 もう一点は,コロナ禍の影響により,コンピュータの利用と,プログラミングをするための人手,またデータの収集などに師匠をきたしてしまったことである。
|
今後の研究の推進方策 |
幸い,コロナ禍の影響下での研究遂行のノウハウを習得することができたため,現在は,計画に沿って研究を進めることができている。したがって,次年度は,「表面的な特徴」に基づいて,難解な日本語をやさしい日本語に変換するための深層学習システムについて,検討を行い,プロトタイムの作成を行う。元々の研究計画では,この深層学習としてVRAE(Variational Recurrent Auto-Encoder)の利用を検討していたが,最近の関連研究の成果により,再帰型ニューラルネットワークよりもTransformerという準方法ニューラルネットワークの方が性能が良いという報告があるため,Transformerを利用して構成することを検討している。この際,Transformerの構造やパラメータの決定は,学習の進行にとても重要であるため,次年度は昨年度と今年度にわたって得られた日本語文のデータを用いて,様々な構造のTransformerの利用・比較を行うことで,やさしい日本語の生成に適した構造とパラメータの決定を行う。
|
次年度使用額が生じた理由 |
本年度3月に予定していた打ち合わせおよび国際会議について,新型コロナウイルスの影響により中止および延期が余儀なくされ,予定していた予算の使用が不可能であったため。これについては次年度(2021年度)に実施を計画している。
|