• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

Research on AI's reading comprehension of multimedia data for improving language proficiency

Research Project

Project/Area Number 18K11557
Research InstitutionKyoto Sangyo University

Principal Investigator

宮森 恒  京都産業大学, 情報理工学部, 教授 (90287988)

Project Period (FY) 2018-04-01 – 2021-03-31
Keywords質問応答 / 画像特徴量 / 連想エンコーダ / キャプション生成 / クエリ志向文書要約 / 文エンコーダ / 深層学習 / 自然言語処理
Outline of Annual Research Achievements

まず、テキストから視覚的要素を連想する能力については、視覚情報を連想し活用した場合の効果を検証するためのデータセットを、動植物の画像と学名のデータセットであるiNaturalistから作成した。また、質問文から画像検索して得られる画像の特徴表現を融合的に利用することでどの程度質問応答に効果があるかを調べた。その結果、テキストのみで学習するモデルよりも、画像の特徴表現を融合的に利用した手法の方が、テストデータに対し高い正答率を出すことがわかった。
次に、図表と文脈を関係付ける能力については、与えられた画像に関する説明文を生成する従来手法が、図表画像の内容をどの程度読み取り、テキストとして表現する能力があるのかについて調べた。その結果、生成結果が正しいと評価された割合は、文法的観点で98.8%、内容的観点で39.8%、関係性観点で48.2%であった。文法的観点については概ね正しい結果が生成できていたものの、内容的観点や関係性観点では、類似した色を混同したり、縦書きの軸ラベルを適切に説明文に反映しにくいといった傾向があることがわかった。
最後に、把握した内容を説明する能力については、原文の単語単位のベクトルに加え、文単位のベクトルを導入し、要約を生成する手法を提案した。また、文単位の注意機構の出力ベクトルを適応的に用いるSentence Adaptive Attentionを導入したモデルを提案した。本モデルにより、文長が長い原文が入力された場合でも、モデルが頑健に働くことが期待される。実験により、提案手法によって、ROUGEにおける精度が改善したことを確認できた。特に、デコード時に、アテンションした文単位のベクトルを、適応的に用いるモデルの精度が安定して高いことがわかった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

まず、テキストから視覚的要素を連想する能力については、当初の計画通り、テキストと画像内容に一定の対応関係が認められるデータセットを構築し、連想エンコーダや、テキストと画像を融合的に利用する文生成デコーダを構築し、基本的な性能を確認しているため。
次に、図表と文脈を関係付ける能力については、当初の計画通り、図表画像に対する質問応答を検証するためのデータセットから得られる図表画像と、そこから簡単な変換処理で得られる説明文を知識源とし、説明文生成の基本的な性能を確認しているため。
最後に、把握した内容を説明する能力については、当初の計画通り、与えられたクエリとそれに関連する文書の入力に対し、クエリに応じた内容を説明する回答を自動生成する手法を提案し、その性能を検証しているため。

Strategy for Future Research Activity

まず、テキストから視覚的要素を連想する能力については、現時点で、質問文から視覚的要素を連想するエンコーダの性能が十分でないため、連想エンコーダの仕組みを改善するなど、性能向上に必要な改良を図る。また、画像検索で得られた画像と、iNaturalistの画像でどのような違いがあるのかについても確認する。
次に、図表と文脈を関係付ける能力については、図表データのタイプに応じて用いられる様々な表現を推定し、図表の傾向を表現するテキストを生成するモデルを構築する。この際、Yes/Noで回答できる質問のみでなく、回答に説明を要する5W1Hによる質問を含む多様なデータセットを用いてモデル構築を進める。
最後に、把握した内容を説明する能力については、実験で用いたデータセットにおいて、一部データの整合性が損なわれていることが確認された。今後は、他のクエリ指向性要約のデータセットに対しても精度を検証するとともに、繰り返しを抑制する仕組みの導入や、比較的長文の説明を生成するための一貫性を保つためのモデル構築を進める。

Causes of Carryover

計画に沿って執行した結果、予定支出額と実支出額との差額が累積され、残額が発生したため。計算機関連機器の更新に必要な物品購入に充てる予定である。

  • Research Products

    (10 results)

All 2019 2018 Other

All Presentation (9 results) (of which Int'l Joint Research: 1 results) Remarks (1 results)

  • [Presentation] Query-focused Summarization Enhanced with Sentence Attention Mechanism2019

    • Author(s)
      木村 輔、田上 諒、宮森 恒
    • Organizer
      6th IEEE International Conference on Big Data and Smart Computing (BigComp 2019)
    • Int'l Joint Research
  • [Presentation] 文エンコーダによるクエリ指向要約モデルの強化2019

    • Author(s)
      木村 輔、田上 諒、宮森 恒
    • Organizer
      第11回データ工学と情報マネジメントに関するフォーラム DEIM2019
  • [Presentation] 前提知識を考慮した根拠の妥当性判断による自動回答手法2019

    • Author(s)
      田上 諒、木村 輔、宮森 恒
    • Organizer
      第11回データ工学と情報マネジメントに関するフォーラム DEIM2019
  • [Presentation] 話者用例に基づく人物らしさを反映した対話応答文生成2019

    • Author(s)
      杉本 翔、宮森 恒
    • Organizer
      第11回データ工学と情報マネジメントに関するフォーラム DEIM2019
  • [Presentation] 質問文から連想した画像特徴量を用いた質問応答モデル2019

    • Author(s)
      石橋陽一、森泰、木村輔、宮森恒
    • Organizer
      言語処理学会第25回年次大会(NLP2019)
  • [Presentation] テキストと関連画像の視覚的要素を活用した質問応答2019

    • Author(s)
      森泰、石橋陽一、宮森恒
    • Organizer
      言語処理学会第25回年次大会(NLP2019)
  • [Presentation] 地方議会における事実確認のための会議録分割2019

    • Author(s)
      田上諒、木村輔、杉本翔、勝山光、宮森恒
    • Organizer
      言語処理学会第25回年次大会(NLP2019)
  • [Presentation] 地方議会特有の表現に基づく政策に対する発言の賛否分類2019

    • Author(s)
      勝山光、杉本翔、田上諒、木村輔、宮森恒
    • Organizer
      言語処理学会第25回年次大会(NLP2019)
  • [Presentation] 幸福感を提供するVR画像検索システムGaZone2018

    • Author(s)
      杉本 翔、岡部 稜、喜田 将生、宮森 恒
    • Organizer
      エンタテインメントコンピューティングシンポジウム2018論文集
  • [Remarks] 教員紹介

    • URL

      https://www.kyoto-su.ac.jp/faculty/professors/cse/miyamori-hisashi.html

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi