• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

表面的特徴に基づいた「やさしい日本語」の自動生成への深層学習の適用

Research Project

Project/Area Number 19K12247
Research InstitutionKobe University

Principal Investigator

村尾 元  神戸大学, 国際文化学研究科, 教授 (70273761)

Project Period (FY) 2019-04-01 – 2023-03-31
Keywordsやさしい日本語 / 機械学習 / 機械翻訳 / 学習支援 / 深層学習 / BERT / Transformer / GAN
Outline of Annual Research Achievements

本研究では,難解な日本語の文章を「やさしい日本語」に変換するシステムの構築を目的とする。この目的のために,助詞や助動詞,句読点や空白,改行の使用 法といった,文章の「表面的な特徴」を利用する。本研究では,目的とするシステムを「やさしい日本語」の文章を生成するシステムと,その文章のやさしさを評価するシステムで構成する。
最終年度の今年度は,「やさしい日本語」の文章を直接的に生成するための深層学習モデルであるTransformerと,生成された文章を評価するための深層学習モデルとしてBERTを組み合わせて,「やさしい日本語」の文章生成システムを構成した。Transformerの学習に先立って,DTW(Dynamic Time Warping)を用いた「やさしい日本語」コーパスの自動生成手法を提案した。続いて,生成したコーパスを用いてTransformerに対して教師あり学習を行う。さらにその出力を評価用のBERTを用いて評価を行い,その結果を用いてTransformerに対して強化学習を行う。最終的に得られたモデルについては,1) やさしい日本語の生成と 2) 意味の一貫性という2つの観点で評価を行った結果,良好な結果が得られた。
本研究では,これまで,「やさしい日本語」における「表面的な特徴」についての検討と,やさしさの評価をについて検討を行ってきた。前者については,どの特徴が,「やさしい日本語」と「難解な日本語」の差別に重要であるかの分析を行なった。日本語テキストの代表的な特徴量15 種類について分析を行った結果,サ変接続名詞」の利用率が最も重要度が高く,一般に,重要な特徴と考えられている「カタカナ語」 の利用率は重要度が低いことを明らかとした。またこれを利用して,深層学習モデルであるBERTを用いて文章のやさしさを評価するシステムを提案した。

  • Research Products

    (3 results)

All 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 2 results)

  • [Journal Article] A PROPOSAL TO CREATE A PSEUDO-PARALLEL TEXT CORPUS FOR SIMPLIFYING JAPANESE USING DTW2023

    • Author(s)
      Eri Maekawa, Hajime Murao
    • Journal Title

      INTED2023 Proceedings (The Proc. of the 17th Int. Technology, Education and Development Conf.)

      Volume: 1 Pages: 6542-6550

    • DOI

      10.21125/inted.2023.1745

    • Peer Reviewed / Open Access
  • [Journal Article] A study on analyzing differences between native Japanese speakers and non-native speakers based on facial muscle EMG signals2022

    • Author(s)
      Jiawen Xu, Hajime Murao
    • Journal Title

      The Proceedings of the 16th International Conference on Innovative Computing, Information and Control (ICICIC2022)

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] Interpreting BERT Attention Trained for Japanese Difficulty Classification from the Viewpoint of Grammatical Features2022

    • Author(s)
      Eri Maekawa, Hajime Murao
    • Journal Title

      ICIC Express Letters, Part B: Applications

      Volume: 13(7) Pages: 697-703

    • DOI

      10.24507/icicelb.13.07.697

    • Peer Reviewed / Open Access

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi