• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Research-status Report

記述必要項目特定技術を利用した内容欠落文書の改善

Research Project

Project/Area Number 26330252
Research InstitutionTottori University

Principal Investigator

村田 真樹  鳥取大学, 工学研究科, 教授 (50358884)

Project Period (FY) 2014-04-01 – 2019-03-31
Keywords内容欠落文書の改善 / 文書推敲 / 記載必要項目 / 情報抽出 / 文生成 / 機械学習
Outline of Annual Research Achievements

本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題はコミュニケーションの効率化に寄与する。
本年度は、技術の汎用化を行った。具体的には、修正したい対象の分野がどのようなものであっても処理できるようにした。修正したい文書の類似文書を入力して、その文書での高頻度出現事項を重要事項として、その重要事項の記載の有無を発見する技術を構築した。従来行っていた、ウィキペディアや論文での実験以外に、新聞や小説や製品情報の文書でも、記載の欠落を発見する実験を遂行できた。
機械学習に基づく言語解析・情報抽出・文章作成支援など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、文章修正技術、言い換え技術、意味解析、情報抽出に関わる研究を行った。
情報抽出の研究では、従来単語に基づいて情報抽出をしていたが、新たに文に基づいて情報抽出する技術も新たに構築できた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。文章の種類ごとに書くべき項目(以降記載必要項目と呼ぶ)がある程度決まっている。新聞であれば5W1Hなどが、論文であれば研究対象・研究成果・必要性・有効性などが、面接用原稿であれば自分の能力とその根拠などが、記載必要項目となる。これらのことが書かれていなければ文章の説得力や可読性が低下する。本課題では、記載必要項目を好適に記述することを支援する技術を構築する。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題はコミュニケーションの効率化に寄与する。
29年度は、技術の汎用化を行い、修正したい文書の種類がどのようなものであっても内容欠落文の記載を改善できる記載支援技術の研究を行う予定であり、実際にその研究を行った。修正したい対象の分野がどのようなものであっても処理できるようにした。修正したい文書の類似文書を入力して、その文書での高頻度出現事項を重要事項として、その重要事項の記載の有無を発見する技術を構築した。従来行っていた、ウィキペディアや論文での実験以外に、新聞や小説や製品情報の文書でも、記載の欠落を発見する実験を遂行できた。以上のように、当初予定していた、技術の汎用化の研究を遂行できた。
また、機械学習に基づく言語解析・情報抽出・文章作成支援など、文章の修正と情報欠落文書の分析に資する文章処理技術の検討も行った。例えば、文章修正技術、言い換え技術、意味解析、情報抽出に関わる研究を行った。

Strategy for Future Research Activity

本課題では、ある文書群において書くべき情報を情報抽出技術等を利用して特定し、その書くべき情報が記載されていない内容の欠落した文章を改善するのに必要となる技術を明らかにする。本課題の遂行には提案者の情報抽出と言い換えに関する成果と経験が役立つ。本課題はコミュニケーションの効率化に寄与する。
30年度には、文に基づく情報抽出を利用して、重要項目の記載の欠如があるかを判断する研究を遂行し、その内容の学会発表を行う。
本課題では、文章中に記載必要項目が記載されているかを確認する必要がある。これにはまず、情報抽出技術を利用して、情報を取り出し、記載必要項目に相当する情報が元文書にあるかを調べる必要がある。この情報抽出には、従来、単語に基づく情報抽出を利用していた。最近になって我々の研究において文に基づく情報抽出が可能な見通しを得た。文に基づく情報抽出は、より広範な情報を扱える。このため、補助事業をより精緻に達成するために、30年度には、文に基づく情報抽出を利用して、重要項目の記載の欠如があるかを判断する研究を遂行する。
また、29年度までに構築した、記載必要項目特定技術、記載必要項目確認技術、記載必要項目有無データベースの改良、拡充も行う。記載確認技術、記載支援技術の基礎的技術となる情報抽出、文生成、機械学習、文書作成支援に関わる研究を進める。
また、29年度まで行った研究の学会発表を行う。

Causes of Carryover

次年度使用額が生じた理由は以下のとおりである。29年度は、記載必要項目有無データベースと記載必要項目修正データベースを作成する予定であった。記載必要項目有無データベースには、記載必要項目が記載されているか否かを記した文章が格納される。記載必要項目無しの文章にはどういう記載必要項目の記載が欠けているかの 情報もつける。記載必要項目修正データベースには、記載必要項目を人手で書き足して修正した文章が格納される。試験的に小規模な記載必要項目有無データベースと記載必要項目修正データベースは作成したが、大規模なデータベースは研究をもう少し進めてからの方がよりよいデータベースが作成できると考え、一部データベースの作成を先延ばしにした。また学会発表も一部先延ばしにすることにした。これらにより、次年度使用額が発生した。
使用計画は以下のとおりである。物品費を利用する。計算機、周辺機器、書籍など、研究活動を推進するために必要なものを購入する。旅費を利用する。29年度までに行った研究の学会発表を行う。謝金、または、その他経費として、外注費を利用する。記載必要項目有無データベースと記載必要項目修正データベースを作成する。

  • Research Products

    (6 results)

All 2018 2017

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results) (of which Int'l Joint Research: 3 results)

  • [Journal Article] Using Machine Learning for Automatic Estimation of Emphases in Japanese Documents2017

    • Author(s)
      Masaki Murata, Yuki Abe
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: Vol.E100-D, No.10 Pages: 2669-2772

    • DOI

      https://doi.org/10.1587/transinf.2016EDL8247

    • Peer Reviewed
  • [Journal Article] Extracting Job Hunting-related Information From Web Documents Using Machine Learning and Characteristic Word Extraction2017

    • Author(s)
      Masaki Murata and Shinnosuke Sawa
    • Journal Title

      Information

      Volume: Vol.20, No.4(A) Pages: 2435-2444

    • Peer Reviewed
  • [Presentation] 複数文書からの重要情報の抽出と表の生成2018

    • Author(s)
      岡崎健介, 村田真樹, 馬青
    • Organizer
      言語処理学会第24回年次大会
  • [Presentation] Using Information Extraction and Search Engines for Automatic Detection of Inadequate Descriptions and Information Supplements in Japanese Wikipedia2018

    • Author(s)
      Masaki Murata, Naoya Nonami and Qing Ma
    • Organizer
      19th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2018)
    • Int'l Joint Research
  • [Presentation] Detection of Inadequate Descriptions in Wikipedia using Information Extraction based on Word Clustering2017

    • Author(s)
      Hokuto Akano, Masaki Murata, Qing Ma
    • Organizer
      Joint 17th World Congress oflnternational Fuzzy Systems Association and 9th International Conference on Soft Computing and Intelligent Systems (IFSA-SCIS 2017)
    • Int'l Joint Research
  • [Presentation] Use of Web Search Engines in TF-IDF based Word Network Construction for Extracting Useful Information2017

    • Author(s)
      Takashi Kamihigashi, Masaki Murata, Qing Ma
    • Organizer
      Joint 17th World Congress oflnternational Fuzzy Systems Association and 9th International Conference on Soft Computing and Intelligent Systems (IFSA-SCIS 2017)
    • Int'l Joint Research

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi