研究課題/領域番号 |
26330366
|
研究機関 | 岡山県立大学 |
研究代表者 |
磯崎 秀樹 岡山県立大学, 情報工学部, 教授 (00396144)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 質問応答 / 画像処理 / 深層学習 |
研究実績の概要 |
本研究は、オープンドメイン質問応答システム(ODQA)の技術を利用しつつ、自然言語処理分野の論文2万本に対象文書を限定することによって、より高度で信頼性の高い質問応答システムを作成し、英語の苦手な日本人学生の研究を支援することを目的としている。平成26年度計画の中で、検索エンジンや「質問解析部」「解答候補抽出部」については、それぞれ問題はあるものの、最初のバージョンを順調に作成できた。 計画の中で一番実現が難しいと予測されたのは、「C-valueの定義は?」のような質問の答として、定義式の画像を論文のPDFファイルの中から切り出す技術の実現である。多くの場合、定義は数式であるが、数式は普通の文中にも表れる一方、数式の中に英語の句が書かれていることもあり、どこからどこまでをひとつの数式として認識するかは、案外難しい処理である。これは一種の画像処理なので、画像処理分野で最近注目を集めている深層学習(Deep learning)を用いた数式分類器の作成に着手した。論文の各ページの画像に対して、手で数式を含む矩形を選択したトレーニング・データを作成した。このデータによりDeep Learningで学習を行い、テスト・データで数式の抽出を行ったところ、ある程度抽出できる目途が立ち、データを増やしている。 この研究の最中に、論文中の図表の重要性に思い至り、図表に含まれる情報を抽出し、これに基づいて質問応答ができるようにすることにした。そこで、オープンソースの画像処理ソフトOpenCVと、文字認識ソフトTesseract OCRを組み合わせて、グラフや表に含まれる情報を認識するツールを作成した。この中で、特に表の認識について、言語処理学会年次大会で報告した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
予定していた「質問解析部」「解答候補抽出部」の最初のバージョンの作成がおおむねできた。たとえば、言語処理分野を強化した翻訳辞書などである。しかし、計画でも難しいと予想していたPDFからの所属抽出はまだできていない。 一方で、一番難しいと予想していた「C-valueの定義は?」のような質問に答えるための、論文のPDF画像からの数式抽出であるが、これは深層学習によりある程度実現した。ただし、現在はまだトレーニング・データが不足しており、精度のよい抽出には、もっとトレーニング・データが必要で、現在データを増強中である。 また、数式抽出で画像処理に着手したことにより、表やグラフに含まれる情報を抽出するという新しい機能に思い至った。市販OCRソフトの中には、エクセル形式で出力できるものもあるが、実際に論文の表を読ませてみると、複数の数が一つのセルに入ってしまうなど、質問応答に利用できるレベルでの表認識はできていないことが判明した。そこで本研究では。画像処理ソフトOpenCVと文字認識ソフトTesseract OCRの組み合わせで、市販ソフトでも難しい表の認識を実現した。そして、年次大会ではあるが、表に含まれる情報を認識するツールの成果を発表できた。
|
今後の研究の推進方策 |
平成27年度には「Penn Treebankでの品詞タグ付けの最高精度は?」のような、標準データごとの最高性能を答えるための技術を実現することになっている。論文中には、多数の数字があるので、その中でどれがその答に相当するのかを見抜くのは難しい。これについては、当初よりトレーニング・データを作り、正解である最高性能の値を機械学習による分類器で実現することを考えている。 しかし、平成26年度に表を読む機能が実現できたので、たとえば、過去の論文の成績をまとめた表を掲載した論文があれば、それを利用するという解法も考えられる。この方向での実現も検討したい。数式の抽出については、7月または9月の情報処理学会自然言語処理研究会で修士課程の学生に発表させる予定である。これ以外に、質問解析部や解答候補抽出部の担当の修士学生にもそれぞれ発表させる予定である。
|
次年度使用額が生じた理由 |
国際会議に出張するための旅費と英文添削の予算を予定していたが、研究を開始したばかりで、国際会議の締め切りまでに、発表できるレベルの成果が出なかった。
|
次年度使用額の使用計画 |
今年度の出張と計算機の購入で利用する。 数式の抽出を行っている修士課程の学生(伊達)が7月または9月の情報処理学会自然言語処理研究会で発表を行う。7月に発表する場合、開催地は東京なので、交通費に3万円、宿泊費に1万円かかるとして、指導教官も同行するので、約8万円使用する。 質問解析部や解答候補抽出部を担当する修士課程の学生(中嶋・菊川)もそれぞれ発表を行うので、それぞれ同程度の旅費を使う。
|