• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Research-status Report

Constructing simplified Japanese corpus and prototyping automatic text simplification

Research Project

Project/Area Number 17K18481
Research InstitutionNagaoka University of Technology

Principal Investigator

山本 和英  長岡技術科学大学, 工学研究科, 准教授 (40359708)

Project Period (FY) 2017-06-30 – 2020-03-31
Keywords自然言語処理 / やさしい日本語 / 自動平易化
Outline of Annual Research Achievements

(1)やさしい日本語 2,000語の選定:下記項目(3)に述べるやさしい日本語コーパスの作成と同時に書き換えに使用する基礎語彙2,000語を(試行錯誤を重ねた上で)独自に定義した。語彙リストは http://box.jnlp.org/easy-japanese/words2 で公開している。
(2)やさしい日本語チェッカーの公開:上記項目(1)で定義した基礎日本語2,000語が入力文中にどの程度含まれているかを瞬時に視覚化するツール「やさしい日本語チェッカー」を作成し、一般に公開した(http://box.jnlp.org/easy-japanese/checker)。次項で述べるコーパスの作成時にもこのツールを用いた。
(3)やさしい日本語対訳コーパスの作成と公開:項目(2)で作成したツールを用いて、5万文に対して上記2,000語の語彙のみで書き換える作業を行った。この結果作成したコーパスを一般公開した(http://www.jnlp.org/SNOW/T15)。
(4)やさしい日本語対訳コーパスの拡張:上記(3)で作成したコーパスとは別に、3万5千文規模の文に対して2,000語の語彙で書き換える作業をクラウドソーシングによって作成した。
(5)やさしい日本語換言辞書の作成:上記(3)のコーパス中に出現しない単語に対して、やさしい日本語2,000語で書き換えた換言辞書20,000語をクラウドソーシングによって作成した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

今年度は主に研究を実施するための言語資源の整備に注力した。やさしい日本語コーパスとその拡張、換言辞書はクラウドソーシングを採用することで当初予定していたよりも早期にデータの作成を行うことができた。ここまでは順調に研究が進捗したと考えられ、平成29年度末で概ね研究基盤整備が完了したと認識している。

Strategy for Future Research Activity

研究課題2年目の平成30年度は、昨年度末までに作成した言語資源を最大限に活用してやさしい日本語への自動平易化の研究を進めていきたい。これと並行して、研究予算をできるだけ有効活用して、さらなる(自動平易化のための)言語資源整備を行っていきたい。自動平易化研究は英語において先行しているが、本研究課題が採択されたことに伴って日本語の言語データも英語と遜色ない、あるいはそれ以上の質と量のデータを整備することができたと考えている。特に人手で作成した日本語と平易文の対訳コーパス8万5千文というのは私の知る限り英語にも存在せず、世界最大規模である。よってこの規模の言語データを活用することで世界最先端の自動平易化研究の知見を蓄積していくだけでなく、さらにデータを大規模化して世界でも比類がない研究を行っていきたい。

Causes of Carryover

当初予定よりも初年度執行額が少なかったのは下記の複合的な理由による:(1)初年度に予定していた言語データ作成(クラウドソーシング作業)について、当初予定していた単価よりも安価に発注することができた。(2)初年度に予定していた一部の言語データ作成作業を次年度に繰り越した。(3)初年度に予定した備品購入について、代替品で代用することができたので次年度に繰り越した。
以上の複合的な理由によるものであるため、上記項目(2)(3)については今年度に予算執行する予定である。また項目(1)については我々にとって好都合であるため、これを利用して作成する言語データの大規模化を図ることで予算を有効活用する予定である。

  • Research Products

    (3 results)

All 2018 2017

All Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] クラウドソーシングによる大規模なやさしい日本語換言辞書の構築2018

    • Author(s)
      角張 竜晴, 山本 和英
    • Organizer
      言語処理学会第24回年次大会
  • [Presentation] やさしい日本語格フレームの構築による係り受け解析2018

    • Author(s)
      角張 竜晴, 山本 和英
    • Organizer
      言語処理学会第24回年次大会
  • [Presentation] Sentence Simplification with Core Vocabulary2017

    • Author(s)
      Takumi Maruyama and Kazuhide Yamamoto
    • Organizer
      Proceedings of the International Conference on Asian Language Processing (IALP 2017)
    • Int'l Joint Research

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi