2015 Fiscal Year Research-status Report
Project/Area Number |
26330366
|
Research Institution | Okayama Prefectural University |
Principal Investigator |
磯崎 秀樹 岡山県立大学, 情報工学部, 教授 (00396144)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 質問応答システム / 機械学習 / 科学技術論文 / 論文QA |
Outline of Annual Research Achievements |
本研究では、科学技術論文を解析して、研究者や学生の質問に答える「論文QA」システムを作成することを目指している。科学技術の分野では、重要な基本課題について「標準データ」というものが作成され、そのデータで性能を競うことが一般的である。技術はどんどん進歩しているので、その分野から少し離れていると、最先端の技術による性能がどれくらいかわからなくなってしまう。しかし、重要な基本ツールは多くの応用に影響を与えるので、自分がたとえその基本課題の研究をしていなくても、今、自分が使っているツールの性能が最先端のツールとどれくらい違うのかを素早く知りたい。できれば、最先端レベルのツールを自分が研究している応用ソフトに利用したい。 そこで、論文から標準データでの性能を表す数値を自動抽出することが望まれるのだが、ひとつの論文には多数の数値表現が出現するので、その中から性能と思われる数値を見つけ出すのは大変である。英語や日本語などの「自然言語」の処理では、たとえば、以下の3つの課題の標準データが存在し、多くの研究者が利用している。 1.英文中の単語の品詞推定 2.日本語の係り受け解析 3.英日翻訳 また、それによって開発された公開ツールを、多くの応用研究者が利用している。そこで、英語論文を検索し、関連する英語論文から、性能を表す数値を精度よく抽出することにした。もっとも簡単な方法として、検索語と候補数値の距離により、候補数値のスコアを計算するという方法があるが、これでは性能ではない数字までたくさん拾ってしまう。そこで、機械学習を用いて、性能を表す数値だけに絞り込むことにした。これにより、3つの課題すべてで、7割以上の精度で候補数値を絞り込むことができるようになった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成27年度の研究実施計画では、「標準データの過去最高の性能はどれくらいか?それはどんな手法なのか?それ以外の手法はどれくらいの性能か?」という質問に答えることを目指した。そして、自然言語処理の3つの標準データで、性能と思われる数字に絞り込み、7割以上の精度を得ることができた。これについては、平成27年11月にIEEE広島支部学生シンポジウムHISSで修士2年の菊川君が一部発表し、その後、改良して修士論文として完成させた。同じ会議で修士2年の中嶋君は、論文QAシステム全体の構想と、専門用語の翻訳辞書の自動作成について発表した。また平成26年度の研究実績では、深層学習を用いて、論文画像から数式領域を抽出するツールを作成したことを報告したが、これについても、改良を重ねて、平成27年12月の電子情報通信学会言語理解とコミュニケーション研究会(NLC)で修士2年の伊達君が発表した。 これらは昨年度の「今後の研究の推進方策 等」に書いたものであり、ほぼ順調に進展していると言える。
|
Strategy for Future Research Activity |
当初の研究実施計画によれば、平成28年度は最終年度であり、作ったシステムに様々な質問を投げかけてみて、システムを改良することと、ウェブ・サーバでシステムをよそから利用できることを予定している。後者については、セキュリティの問題があるので、ごく一部の研究機関だけからアクセスできるようにしておき、次第に広げていく予定である。 しかしその前に、これまでに培ってきた個々の技術を改良・統合し、使いやすいインタフェースを持たせることに注力する。そして研究室でのアルファテストを今年いっぱい行う。ベータテストは来年になって行う。
|
Causes of Carryover |
伊達、中嶋、菊川の3人の修士課程の学生が国内で発表することを予定し、旅費と宿泊費を予定していたが、中嶋、菊川の2人が岡山大学で開催された会議で発表することになったので、旅費、宿泊費ともに不要になった。さらに伊達君についても、東京出張の予定だったのが名古屋出張になり、日帰りで対応できたので、宿泊費不要、旅費減額となった。
|
Expenditure Plan for Carryover Budget |
近年、深層学習が様々な課題で従来の機械学習手法を超える性能を示している。 深層学習には大量の計算が必要であり、通常はCPUではなく、大量の並列処理が可能なGPUを利用する。そこで、GPUやシステム公開用の計算機の購入にあてる。
|