2018 Fiscal Year Annual Research Report
Development of Japanese CCG parser "lightblue"
Project/Area Number |
18H03284
|
Research Institution | Ochanomizu University |
Principal Investigator |
戸次 大介 お茶の水女子大学, 基幹研究院, 准教授 (90431783)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 計算言語学 / 統語解析 / 形式意味論 / 深層学習 / 含意関係認識 |
Outline of Annual Research Achievements |
本研究では、日本語CCG形態素解析器+統語解析器+推論システムであるlightblueの改良を加速的に推進し、日本語意味論データセットJSeMを対象とした含意関係認識タスクの最高精度である75%を上回ることを目指す。lightblueの設計は最先端の理論言語学の成果に基づいて設計されており、統語理論として組合せ範疇文法(CCG)を採用した頑健で高速な解析器であると同時に、意味理論として依存型意味論(DTS)を採用し、自然演繹に基づく証明探索アルゴリズムによって統語解析結果間の推論が計算可能である。また、形式文法理論と深層ニューラルネット(DNN)が融合した設計により、現在DNN単独では難しい「深い意味解析」へ到達することを目指す。また、lightblueは最新言語学理論のシミュレータとも見なせるため、本研究は理論言語学の検証可能性を引き上げる学際的研究プログラムとしての意義も併せ持つ。
平成30年、深層学習の新たな技術として、7月にAllen InstituteによってElmoが、また10月にGoogle AIによってBERTが発表されたことにより、ニューラル自然言語処理は新たな段階に突入した。本研究は、形式文法理論とニューラルネットの融合を目指しているが、一部にはBERTの登場に至って、形式文法理論の役割はニューラルネットによって完全に取って替わられた、という見解も散見される。したがって、それらの研究の限界点を見極める研究が本研究を推進する上で不可欠となった。これまでの研究で、BERTを利用したニューラルネットで捉えうる統語的・意味的情報には一定の限界があることが明らかとなっており、本研究が目指す形式文法とニューラルネットの融合の重要性はますます高まるものと考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の計画では、Elmo、BERT等の言語モデルとの比較研究を平成30年11月まで行う予定であったが、この研究トピックは思わぬ広がりをみせ、第一には、平成31年度/令和1年度には、ニューラルネットが人間の推論の体系性を獲得しうるか、という一般的な問いに答えんとする研究に発展した。その成果は、*SEM2019ワークショップ[査読付き国際学会、2nd BlackBoxNLP(ACL2019併設)ワークショップ[査読付き国際学会]、第33回人工知能学会全国大会、言語処理学会第26回年次大会、において発表することができた(ともにオランダ・フローニンゲン大学との共同研究)。 また、第二には、本研究が与する理論言語学と機械学習のハイブリッドによる「深い意味解析」と、BERTのような深層学習のみによるアプローチの比較を行った。両アプローチの差が顕著となる言語現象として比較構文の研究を進めた。この研究では、CCG統語解析器そのものを改良する代わりに、既存のCCG統語解析器のナイーブな出力をTsurgeon(Stanford NLPツールに含まれる木構造変換プログラム)によって統語論的に妥当な構造に変換し、高度な意味解析に接続するという手法を採用した。この研究成果を、ACL student workshop (ACL-SRW2020)[査読付き国際学会](トップカンファレンス)、PACLIC33[査読付き国際学会]、人工知能学会第34回年次大会、において発表することができたのは大きな成果であると考えられる。 以上の研究に注目して頂く機会も増えており、2019年度には国際学会で2回、国内学会で1回の招待講演に加えて、企業向けのセミナーで2回の一般向け講演を行い、研究成果の社会還元に務めた。
|
Strategy for Future Research Activity |
ニューラル言語モデルそのものの評価研究については一定の知見を得たものと考え、R2年度以降は形式文法理論に基づく統語解析の研究を進める予定である。比較構文の研究は、当初目標としていたlightblue構文解析器の開発と融合させていく予定である。
|
Research Products
(17 results)