2023 Fiscal Year Research-status Report
Development of a Hybrid CG Parser
Project/Area Number |
21K00541
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
窪田 悠介 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 准教授 (60745149)
|
Co-Investigator(Kenkyū-buntansha) |
峯島 宏次 慶應義塾大学, 文学部(三田), 准教授 (80725739)
吉川 将司 東北大学, タフ・サイバーフィジカルAI研究センター, 助教 (80883470) [Withdrawn]
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 統語解析 / 意味解析 / 統語変換 / CCG / 機械学習 / 深層学習 / 比較構文 |
Outline of Annual Research Achievements |
本研究は、「統語変換」の概念に基づく理論言語学での研究の知見を活かして、自然言語処理研究において開発されたパーザ (具体的にはCCGパーザ) の性能を向上させることを目指すことを目的とするものである。この目的のために、CCGパーザにとって足りない情報を補うための機械学習のコンポーネントが必要となる。
本研究で構築するシステムは、設計上、(1) CCGパーザ、(2) 高次の意味的対応関係の解析器、(3) 何らかの方法で(1)と(2)を組み合わせて正しい意味表示を得るためのコンポーネントの3つの要素から構成される。
昨年度までの研究で、(2)のコンポーネントについて、機械学習によって未知のデータに対して正しく意味情報を付与できることが分かった。今年度は、(3)の部分の設計、つまり、この機械学習のコンポーネントとCCGパーザを組み合わせ、未知のデータを統語解析し、意味情報ラベルを予測する機械学習モデルの出力と組み合わせて論理式を出力するパイプラインを構築する方法を試行錯誤した。この作業は、パーザの設計を一から考え直すなどの大がかりで複雑な作業を伴ったため、当初の予想より時間がかかっている。このため、研究期間を一年延長して、システム全体を完成させ、学習データやパーザのモデルなどを公開するなどの作業を余裕をもって進めることができるように計画変更した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究で構築するシステムでは、設計上、(1) CCGパーザ、(2) 高次の意味的対応関係の解析器、(3) 何らかの方法で(1)と(2)を組み合わせて正しい意味表示を得るためのコンポーネントの三者のスムーズな連携が必須となる。(1) - (3)すべて、単体でもそれぞれ動作に癖がある計算システムであり、またそれぞれの接合部分にも複雑さがあるため、困難な課題であることは当初からある程度予想されていた。実際にシステム全体のパイプラインを実装する作業に取り掛かった最終年度において、作業の複雑さが想定以上であったため、研究の完了に遅れが出ている。
|
Strategy for Future Research Activity |
昨年度の作業により、基本的な実装方針は明確になっており、また、原理的に可能な作業であることはパイロット的な試行により確認済みである。研究期間を一年延長して、実装を満足のいく形で完成させ、学習データやパーザのモデルなどを公開するなどの作業を余裕をもって進める。
|
Causes of Carryover |
研究が遅れたため、主に学会発表などのために予定していた予算に余剰が生じた。次年度使用額は、研究計画自体をペースを落として進めることで、残りの期間におけるプログラミングの業務委託や最終年度の成果発表などの目的に使う。
|
Research Products
(2 results)