2019 Fiscal Year Research-status Report
表面的特徴に基づいた「やさしい日本語」の自動生成への深層学習の適用
Project/Area Number |
19K12247
|
Research Institution | Kobe University |
Principal Investigator |
村尾 元 神戸大学, 国際文化学研究科, 教授 (70273761)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | やさしい日本語 / 機械学習 / 機械翻訳 / 学習支援 |
Outline of Annual Research Achievements |
本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。本研究では,難解な用語の平易な表現への置き換えではなく,文法的に平易な文章への変換を目指す。したがって,中心的な課題は,「やさしい日本語」の文法的な特徴を抽出すること,さらに,この特徴を利用して,自然な「やさしい日本語」の生成を実現することである。本研究では,この目的のために,助詞や助動詞,句読点や空白,改行の使用法といった,文章の「表面的な特徴」を利用する。これらを抽出・利用するために,本研究では深層学習による自然言語処理の技術を適用する。 本年度は,研究計画に基づき,「やさしい日本語」の「表面的な特徴」についての検討を行った。 まず,準備として,既存研究において作成されたコーパスから「やさしい日本語」と「難解な日本語」を抜き出し,それらの文法上の差異に基づく分別を試みた。しかし,コーパスに納められた文の多くは難解な用語の平易な表現への置き換えによる変換であり分別は困難であった。 そこで,日本語を母語としない者にとっての「やさしい日本語」とはそもそもどういうものかについて検討を行う必要があると考えた。そのため,神戸新聞社および(株)ソースネクスト社の協力を得て,携帯型機械翻訳機およそ100台を神戸市内の各所に配布,外国人旅行者との会話に利用してもらい,その会話データを収集した。収集された日本語文は,外国語から機械的に翻訳されたものであるが,会話相手が日本人であり,また機械翻訳を行っていることを話者も知っているため,できるだけ平易な用語や文法で話すと期待され,そこから翻訳された日本語も平易なものになっていると考えた。現在,得られた日本語の分析を行っており,「表面的な特徴」に関する様々な知見が得られた。これについては論文を作成し,国際学会に投稿済みである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年のうちに既存研究で利用されたデータの分析を終了,携帯型機械翻訳機を用いた新たなデータの収集を終え,昨年末よりこのデータの分析用プログラムを作成,今年の初旬より分析を開始した。初期の段階における分析結果はすでに得られており,概ね研究計画の通りであり順調に進展しているといえる。ただし,この研究成果について,年度内の発表はできなかった。
|
Strategy for Future Research Activity |
研究計画に基づき,次年度は,「表面的な特徴」に基づいて,難解な日本語をやさしい日本語に変換するための深層学習システムについて検討を行う。具体的にはVRAE(Variational Recurrent Auto-Encoder)を用いる。この時,VRAEの構造やパラメータの決定は学習の進行にとても重要であり,これの決定が大きな課題となる。次年度は今年度の研究で得た日本語文のデータを用いて,様々な構造・パラメータのVRAEを利用,比較することで,最適な構造とパラメータの決定を行う。
|
Causes of Carryover |
本年度3月に予定していた打ち合わせおよび国際会議について,新型コロナウイルスの影響により中止および延期が余儀なくされ,予定していた予算の使用が不可能であったため。これについては次年度(2020年度)に実施を計画している。
|
Research Products
(2 results)