2020 Fiscal Year Annual Research Report
Development of Japanese CCG parser "lightblue"
Project/Area Number |
18H03284
|
Research Institution | Ochanomizu University |
Principal Investigator |
戸次 大介 お茶の水女子大学, 基幹研究院, 准教授 (90431783)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 計算言語学 / 統語解析 / 形式意味論 / 深層学習 |
Outline of Annual Research Achievements |
2021年度には、いよいよ理論言語学と深層学習のハイブリッドアプローチとして、1) 日本語CCGパーザlightblueに、ニューラル言語モデルによる形態素解析器を組み合わせる研究を行った。深層学習フレームワークhasktorch(libtorchのHaskellバインディング)を用いて、既存の日本語形態素解析器の蒸留によって、少ない教師データから軽量なニューラル形態素解析器が得られることを示した[田上・戸次 2021](6月の人工知能学会において発表)。また、2) lightblueの意味計算部門で採用している自然言語の意味論のフレームワークである依存型意味論(DTS)を用いた理論言語学の研究として、Weak Crossoverの研究[Bekki 2021]とproviso problemの研究[Yana+2021]を行った。それぞれLENLS18国際学会、LACL国際学会において論文が採択され、発表を行った。その他、3) 日本語の実テキストに現れる数量詞の推論についての研究[小谷野・谷中・峯島・戸次 2021]、および 4) 意味論テストセットによる文法開発プラットフォームの確立を目指して、lightblueパーザ出力の可視化の研究[石嶋・戸次 2021]を進めた(ともに6月の人工知能学会において発表)。 当初の研究計画で述べたように、このプロジェクトの成果であるCCGパーザlightblue+DTS proverという組合せは、形式統語論と形式意味論の検証過程の自動化と見做すこともできる。そのように統合され自動化された言語理論が、既存の理論言語学と比較して、はたまた自然言語処理における意味解析と比較して、何を意味するのか。そもそも人間の言語機能を科学的に研究するとはどのような行為であるのか。2021年度言語学フェスでの発表[戸次 2021]では、そのような問題意識と、このプロジェクトを通して得られつつある回答を素描した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2021年度については、当初の研究計画では、前年度から繰り越した課題であるCCGパーザとニューラルネットの融合研究を進め、8月にESSLLIサマースクールにおける研究発表と情報収集を行い、11月にはLENLS18国際ワークショップにおける併設シンポジウムの形式で、4年間の成果の取りまとめを行う予定であった。しかしながら新型コロナウィルス感染拡大に伴い、2019年度から延期を重ねていたESSLLIサマースクールも、LENS18もともにオンライン開催となり、想定していたような情報収集や宣伝を含めた成果発表の機会には恵まれなかった。そのような状況下ではあったが、2件の査読付き国際学会論文発表、3件の国内学会発表、2件の招待講演があり、おおむね順調な成果を挙げたと考えられる。
|
Strategy for Future Research Activity |
2022年度は、1) ニューラル形態素解析器によってlightblueの形態素解析を置き換えることによって、当初の目標の一つであった「形式文法理論と深層ニューラルネットの融合」を目指す。また、そのようなパーザの評価は、lightblueの推論システムを日本語意味論テストセットJSeM上で評価することによってなされるが、そのようなタスクの実現のために、2) lightblueに昨年度の成果であるDTS上の自動定理証明器を組み合わせる研究を行う予定である。さらに、当初の研究計画で述べたように、lightblue+DTS proverという組合せは、形式統語論と形式意味論の検証過程の自動化と見做すこともできる。3) そのように統合され自動化された言語理論において、新たに解かれるべきの理論言語学の問題についても論じる予定である。ただし成果発表については、2021年現在、まだ多くの国際学会・国内学会がオンライン開催となっており、今後の成果発表についても昨年度同様、社会情勢を見極めながら判断していく必要が生じている。
|
Research Products
(9 results)