• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Research-status Report

言語横断専門情報質問応答システムの研究

Research Project

Project/Area Number 26330366
Research InstitutionOkayama Prefectural University

Principal Investigator

磯崎 秀樹  岡山県立大学, 情報工学部, 教授 (00396144)

Project Period (FY) 2014-04-01 – 2017-03-31
Keywords質問応答 / 画像処理 / 深層学習
Outline of Annual Research Achievements

本研究は、オープンドメイン質問応答システム(ODQA)の技術を利用しつつ、自然言語処理分野の論文2万本に対象文書を限定することによって、より高度で信頼性の高い質問応答システムを作成し、英語の苦手な日本人学生の研究を支援することを目的としている。平成26年度計画の中で、検索エンジンや「質問解析部」「解答候補抽出部」については、それぞれ問題はあるものの、最初のバージョンを順調に作成できた。
計画の中で一番実現が難しいと予測されたのは、「C-valueの定義は?」のような質問の答として、定義式の画像を論文のPDFファイルの中から切り出す技術の実現である。多くの場合、定義は数式であるが、数式は普通の文中にも表れる一方、数式の中に英語の句が書かれていることもあり、どこからどこまでをひとつの数式として認識するかは、案外難しい処理である。これは一種の画像処理なので、画像処理分野で最近注目を集めている深層学習(Deep learning)を用いた数式分類器の作成に着手した。論文の各ページの画像に対して、手で数式を含む矩形を選択したトレーニング・データを作成した。このデータによりDeep Learningで学習を行い、テスト・データで数式の抽出を行ったところ、ある程度抽出できる目途が立ち、データを増やしている。
この研究の最中に、論文中の図表の重要性に思い至り、図表に含まれる情報を抽出し、これに基づいて質問応答ができるようにすることにした。そこで、オープンソースの画像処理ソフトOpenCVと、文字認識ソフトTesseract OCRを組み合わせて、グラフや表に含まれる情報を認識するツールを作成した。この中で、特に表の認識について、言語処理学会年次大会で報告した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

予定していた「質問解析部」「解答候補抽出部」の最初のバージョンの作成がおおむねできた。たとえば、言語処理分野を強化した翻訳辞書などである。しかし、計画でも難しいと予想していたPDFからの所属抽出はまだできていない。
一方で、一番難しいと予想していた「C-valueの定義は?」のような質問に答えるための、論文のPDF画像からの数式抽出であるが、これは深層学習によりある程度実現した。ただし、現在はまだトレーニング・データが不足しており、精度のよい抽出には、もっとトレーニング・データが必要で、現在データを増強中である。
また、数式抽出で画像処理に着手したことにより、表やグラフに含まれる情報を抽出するという新しい機能に思い至った。市販OCRソフトの中には、エクセル形式で出力できるものもあるが、実際に論文の表を読ませてみると、複数の数が一つのセルに入ってしまうなど、質問応答に利用できるレベルでの表認識はできていないことが判明した。そこで本研究では。画像処理ソフトOpenCVと文字認識ソフトTesseract OCRの組み合わせで、市販ソフトでも難しい表の認識を実現した。そして、年次大会ではあるが、表に含まれる情報を認識するツールの成果を発表できた。

Strategy for Future Research Activity

平成27年度には「Penn Treebankでの品詞タグ付けの最高精度は?」のような、標準データごとの最高性能を答えるための技術を実現することになっている。論文中には、多数の数字があるので、その中でどれがその答に相当するのかを見抜くのは難しい。これについては、当初よりトレーニング・データを作り、正解である最高性能の値を機械学習による分類器で実現することを考えている。
しかし、平成26年度に表を読む機能が実現できたので、たとえば、過去の論文の成績をまとめた表を掲載した論文があれば、それを利用するという解法も考えられる。この方向での実現も検討したい。数式の抽出については、7月または9月の情報処理学会自然言語処理研究会で修士課程の学生に発表させる予定である。これ以外に、質問解析部や解答候補抽出部の担当の修士学生にもそれぞれ発表させる予定である。

Causes of Carryover

国際会議に出張するための旅費と英文添削の予算を予定していたが、研究を開始したばかりで、国際会議の締め切りまでに、発表できるレベルの成果が出なかった。

Expenditure Plan for Carryover Budget

今年度の出張と計算機の購入で利用する。
数式の抽出を行っている修士課程の学生(伊達)が7月または9月の情報処理学会自然言語処理研究会で発表を行う。7月に発表する場合、開催地は東京なので、交通費に3万円、宿泊費に1万円かかるとして、指導教官も同行するので、約8万円使用する。
質問解析部や解答候補抽出部を担当する修士課程の学生(中嶋・菊川)もそれぞれ発表を行うので、それぞれ同程度の旅費を使う。

Research Products

(1 results)

All 2015

All Presentation (1 results)

  • [Presentation] 論文QAのための画像処理2015

    • Author(s)
      磯崎秀樹 伊藤圭汰 荒木良元
    • Organizer
      言語処理学会年次大会
    • Place of Presentation
      京都大学
    • Year and Date
      2015-03-17

URL: 

Published: 2016-05-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi